QUICK REVIEW

[논문 리뷰] On the Robustness of the CVPR 2018 White-Box Adversarial Example Defenses

Anish Athalye, Nicholas Carlini|arXiv (Cornell University)|2018. 04. 10.

Adversarial Robustness in Machine Learning참고 문헌 7인용 수 119

한 줄 요약

본 논문은 CVPR 2018의 두 방어 기법(Pixel Deflection 및 High-Level Representation Guided Denoiser)이 화이트박스 공격에서 실패한다는 것을 보여주며, 4/255扰변 perturbation에서 ImageNet 정확도를 0%로 감소시키고 표적 성공률은 97%에 이른다.

ABSTRACT

Neural networks are known to be vulnerable to adversarial examples. In this note, we evaluate the two white-box defenses that appeared at CVPR 2018 and find they are ineffective: when applying existing techniques, we can reduce the accuracy of the defended models to 0%.

연구 동기 및 목표

두 가지 CVPR 2018 화이트박스 방어의 강건성을 강력한 적대적 공격에 대해 평가한다.
Pixel Deflection 및 HGR이 화이트박스 위협 모델에서 효과적인지 여부를 판단한다.
표준 적대적 공격 기법을 사용하여 공격 성공률 및 강건성을 정량화한다.

제안 방법

non-differentiable pixel deflection을 처리하기 위해 BPDA를 적용하고 화이트박스 공격에 대한 강건성을 평가한다.
l_infinity = 4/255로 한정된 untargeted 적대적 예제를 생성하기 위해 PGD를 사용한다.
공격하에 정확도와 표적 성공률을 측정하기 위해 ImageNet에서 방어된 모델을 평가한다.
공격자가 방어를 알고 있는 화이트박스 위협 모델에서 방어를 분석한다.

실험 결과

연구 질문

RQ1Pixel Deflection 및 HGR이 화이트박스 적대적 공격에 대해 강건한가?
RQ2일반적인 화이트박스 공격이 방어된 모델의 ImageNet 정확도를 거의 0에 가까워지게 만들 수 있는가?
RQ3작은扰변 경계 하에서 이 방어들에 대한 표적 공격 성공률은 어떠한가?

주요 결과

화이트박스 BPDA 공격하에서 방어 모델의 Pixel Deflection 정확도가 0%로 감소; 표적 성공률은 약 97%입니다.
화이트박스 PGD를 통한 end-to-end에서 HGR 방어는 정확도가 0%이고 표적 공격 성공률은 100%입니다.
두 방어 모두 화이트박스 위협 모델에서 적대적 예제에 대해 강건하지 않습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.