QUICK REVIEW
[논문 리뷰] On the Robustness of the CVPR 2018 White-Box Adversarial Example Defenses
Anish Athalye, Nicholas Carlini|arXiv (Cornell University)|2018. 04. 10.
Adversarial Robustness in Machine Learning참고 문헌 7인용 수 119
한 줄 요약
본 논문은 CVPR 2018의 두 방어 기법(Pixel Deflection 및 High-Level Representation Guided Denoiser)이 화이트박스 공격에서 실패한다는 것을 보여주며, 4/255扰변 perturbation에서 ImageNet 정확도를 0%로 감소시키고 표적 성공률은 97%에 이른다.
ABSTRACT
Neural networks are known to be vulnerable to adversarial examples. In this note, we evaluate the two white-box defenses that appeared at CVPR 2018 and find they are ineffective: when applying existing techniques, we can reduce the accuracy of the defended models to 0%.
연구 동기 및 목표
- 두 가지 CVPR 2018 화이트박스 방어의 강건성을 강력한 적대적 공격에 대해 평가한다.
- Pixel Deflection 및 HGR이 화이트박스 위협 모델에서 효과적인지 여부를 판단한다.
- 표준 적대적 공격 기법을 사용하여 공격 성공률 및 강건성을 정량화한다.
제안 방법
- non-differentiable pixel deflection을 처리하기 위해 BPDA를 적용하고 화이트박스 공격에 대한 강건성을 평가한다.
- l_infinity = 4/255로 한정된 untargeted 적대적 예제를 생성하기 위해 PGD를 사용한다.
- 공격하에 정확도와 표적 성공률을 측정하기 위해 ImageNet에서 방어된 모델을 평가한다.
- 공격자가 방어를 알고 있는 화이트박스 위협 모델에서 방어를 분석한다.
실험 결과
연구 질문
- RQ1Pixel Deflection 및 HGR이 화이트박스 적대적 공격에 대해 강건한가?
- RQ2일반적인 화이트박스 공격이 방어된 모델의 ImageNet 정확도를 거의 0에 가까워지게 만들 수 있는가?
- RQ3작은扰변 경계 하에서 이 방어들에 대한 표적 공격 성공률은 어떠한가?
주요 결과
- 화이트박스 BPDA 공격하에서 방어 모델의 Pixel Deflection 정확도가 0%로 감소; 표적 성공률은 약 97%입니다.
- 화이트박스 PGD를 통한 end-to-end에서 HGR 방어는 정확도가 0%이고 표적 공격 성공률은 100%입니다.
- 두 방어 모두 화이트박스 위협 모델에서 적대적 예제에 대해 강건하지 않습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.