Skip to main content
QUICK REVIEW

[논문 리뷰] On the Robustness of the CVPR 2018 White-Box Adversarial Example Defenses

Anish Athalye, Nicholas Carlini|arXiv (Cornell University)|2018. 04. 10.
Adversarial Robustness in Machine Learning참고 문헌 7인용 수 119
한 줄 요약

본 논문은 CVPR 2018의 두 방어 기법(Pixel Deflection 및 High-Level Representation Guided Denoiser)이 화이트박스 공격에서 실패한다는 것을 보여주며, 4/255扰변 perturbation에서 ImageNet 정확도를 0%로 감소시키고 표적 성공률은 97%에 이른다.

ABSTRACT

Neural networks are known to be vulnerable to adversarial examples. In this note, we evaluate the two white-box defenses that appeared at CVPR 2018 and find they are ineffective: when applying existing techniques, we can reduce the accuracy of the defended models to 0%.

연구 동기 및 목표

  • 두 가지 CVPR 2018 화이트박스 방어의 강건성을 강력한 적대적 공격에 대해 평가한다.
  • Pixel Deflection 및 HGR이 화이트박스 위협 모델에서 효과적인지 여부를 판단한다.
  • 표준 적대적 공격 기법을 사용하여 공격 성공률 및 강건성을 정량화한다.

제안 방법

  • non-differentiable pixel deflection을 처리하기 위해 BPDA를 적용하고 화이트박스 공격에 대한 강건성을 평가한다.
  • l_infinity = 4/255로 한정된 untargeted 적대적 예제를 생성하기 위해 PGD를 사용한다.
  • 공격하에 정확도와 표적 성공률을 측정하기 위해 ImageNet에서 방어된 모델을 평가한다.
  • 공격자가 방어를 알고 있는 화이트박스 위협 모델에서 방어를 분석한다.

실험 결과

연구 질문

  • RQ1Pixel Deflection 및 HGR이 화이트박스 적대적 공격에 대해 강건한가?
  • RQ2일반적인 화이트박스 공격이 방어된 모델의 ImageNet 정확도를 거의 0에 가까워지게 만들 수 있는가?
  • RQ3작은扰변 경계 하에서 이 방어들에 대한 표적 공격 성공률은 어떠한가?

주요 결과

  • 화이트박스 BPDA 공격하에서 방어 모델의 Pixel Deflection 정확도가 0%로 감소; 표적 성공률은 약 97%입니다.
  • 화이트박스 PGD를 통한 end-to-end에서 HGR 방어는 정확도가 0%이고 표적 공격 성공률은 100%입니다.
  • 두 방어 모두 화이트박스 위협 모델에서 적대적 예제에 대해 강건하지 않습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.