Skip to main content
QUICK REVIEW

[논문 리뷰] Attacking the Madry Defense Model with $L_1$-based Adversarial Examples

Yash Sharma, Pin‐Yu Chen|arXiv (Cornell University)|2017. 10. 30.
Adversarial Robustness in Machine Learning참고 문헌 9인용 수 75
한 줄 요약

논문은 L1 기반 탄력망(Elastic-Net) 적대 예제(EAD)가 Madry Defense Model로 전달되며 타깃 전이에서 L2/L∞ 기반 PGD/I-FGM보다 우수할 수 있고, 종종 유사한 L∞ 기반 공격보다 시각 왜곡이 덜 발생한다는 것을 보여준다.

ABSTRACT

The Madry Lab recently hosted a competition designed to test the robustness of their adversarially trained MNIST model. Attacks were constrained to perturb each pixel of the input image by a scaled maximal $L_\infty$ distortion $ε$ = 0.3. This discourages the use of attacks which are not optimized on the $L_\infty$ distortion metric. Our experimental results demonstrate that by relaxing the $L_\infty$ constraint of the competition, the elastic-net attack to deep neural networks (EAD) can generate transferable adversarial examples which, despite their high average $L_\infty$ distortion, have minimal visual distortion. These results call into question the use of $L_\infty$ as a sole measure for visual distortion, and further demonstrate the power of EAD at generating robust adversarial examples.

연구 동기 및 목표

  • Madry MNIST 도전에서 사용된 L∞ 제약을 넘는 적대 공격의 전이 가능성 평가.
  • 비강제 왜곡 예산하에서 EAD(L1+L2 규제)와 PGD 및 I-FGM(L∞ 기반)을 비교.
  • 무방어 모델 및 앙상블로부터의 표적 및 비표적 전이 가능성 평가.
  • Transferred adversarial examples에서 시각 왜곡과 왜곡 지표(L1, L2, L∞) 간의 관계 분석.

제안 방법

  • PGD ε = 0.3으로 학습된 Madry Defense Model 사용.
  • EAD(탄력망: L1 + L2)로 적대 예제 생성하고 beta를 조정하여 L1/L2 강조를 변화.
  • 다양한 ε 및 κ 설정에서 PGD 및 I-FGM과 비교.
  • 무방어 모델 및 3-모델 앙상블에서의 표적 및 비표적 전이 가능성 평가.
  • L1/L2/L∞ 노름을 이용한 시각 왜곡 분석 및 정성적 시각화 제공.

실험 결과

연구 질문

  • RQ1L1 기반 EAD 적대 예제가 L∞ 기반 PGD/I-FGM만큼 혹은 더 효과적으로 Madry Defense Model로 전달되는가?
  • RQ2전이성 및 지각되는 시각 왜곡에 대한 L1 및 L2 왜곡이 L∞ 제약과 비교해 어떤 차이를 보이는가?
  • RQ3무방어 모델의 앙상블 사용이 EAD 공격의 전이성을 향상시키는가?
  • RQ4타깃 대 비타깃 공격에서 공격 성공률과 왜곡 유형(L1/L2/L∞) 간의 트레이드오프는 무엇인가?

주요 결과

공격 방법신뢰도ASR (타깃 공격 %)L1 (타깃 공격)L2 (타깃 공격)L∞ (타깃 공격)ASR (비타깃 공격 %)L1 (비타깃 공격)L2 (비타깃 공격)L∞ (비타깃 공격)
PGDNone68.5188.38.9470.699.9270.513.270.8
I-FGMNone75.1144.57.4060.91599.8199.410.660.9
C&W101.134.152.4820.5484.923.231.7020.424
C&W3069.468.144.8640.87171.351.043.6980.756
C&W5092.9117.458.0410.98799.178.655.5980.937
C&W7034.8169.710.880.99499119.48.0970.99
EAD1027.425.793.2090.87639.919.192.6360.8
EAD3085.849.645.1790.99594.534.284.1920.971
EAD5098.593.467.711199.657.685.8390.999
EAD7067.2148.910.36199.890.847.7191
  • EAD는 κ 설정에서 C&W를 능가하며 타깃 및 비타깃 케이스 모두에서 우수한 성능을 보임.
  • 타깃 공격에서 최적 κ(예: 50) 시 EAD가 PGD/I-FGM보다 낮은 L1/L2 왜곡과 더 높은 전이성을 달성.
  • β=0.01인 경우 특히 낮은 κ에서 L1 왜곡을 최소화하면서 ASR이 가장 높게 나타남.
  • PGD/I-FGM은 높은 ASR에 도달할 수 있지만 L1/L2 왜곡이 커져 시각적으로 눈에 띄는 섭동을 야기할 수 있음.
  • 시각적 비교에서 EAD가 평균 L∞ 왜곡이 유사하더라도 시각 품질을 보존하는 경향이 있음.
  • 결과는 L∞만으로는 시각 왜곡과 적대적 부분공간을 충분히 설명하기 어렵다는 것을 시사.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.