[논문 리뷰] Attacking the Madry Defense Model with $L_1$-based Adversarial Examples
논문은 L1 기반 탄력망(Elastic-Net) 적대 예제(EAD)가 Madry Defense Model로 전달되며 타깃 전이에서 L2/L∞ 기반 PGD/I-FGM보다 우수할 수 있고, 종종 유사한 L∞ 기반 공격보다 시각 왜곡이 덜 발생한다는 것을 보여준다.
The Madry Lab recently hosted a competition designed to test the robustness of their adversarially trained MNIST model. Attacks were constrained to perturb each pixel of the input image by a scaled maximal $L_\infty$ distortion $ε$ = 0.3. This discourages the use of attacks which are not optimized on the $L_\infty$ distortion metric. Our experimental results demonstrate that by relaxing the $L_\infty$ constraint of the competition, the elastic-net attack to deep neural networks (EAD) can generate transferable adversarial examples which, despite their high average $L_\infty$ distortion, have minimal visual distortion. These results call into question the use of $L_\infty$ as a sole measure for visual distortion, and further demonstrate the power of EAD at generating robust adversarial examples.
연구 동기 및 목표
- Madry MNIST 도전에서 사용된 L∞ 제약을 넘는 적대 공격의 전이 가능성 평가.
- 비강제 왜곡 예산하에서 EAD(L1+L2 규제)와 PGD 및 I-FGM(L∞ 기반)을 비교.
- 무방어 모델 및 앙상블로부터의 표적 및 비표적 전이 가능성 평가.
- Transferred adversarial examples에서 시각 왜곡과 왜곡 지표(L1, L2, L∞) 간의 관계 분석.
제안 방법
- PGD ε = 0.3으로 학습된 Madry Defense Model 사용.
- EAD(탄력망: L1 + L2)로 적대 예제 생성하고 beta를 조정하여 L1/L2 강조를 변화.
- 다양한 ε 및 κ 설정에서 PGD 및 I-FGM과 비교.
- 무방어 모델 및 3-모델 앙상블에서의 표적 및 비표적 전이 가능성 평가.
- L1/L2/L∞ 노름을 이용한 시각 왜곡 분석 및 정성적 시각화 제공.
실험 결과
연구 질문
- RQ1L1 기반 EAD 적대 예제가 L∞ 기반 PGD/I-FGM만큼 혹은 더 효과적으로 Madry Defense Model로 전달되는가?
- RQ2전이성 및 지각되는 시각 왜곡에 대한 L1 및 L2 왜곡이 L∞ 제약과 비교해 어떤 차이를 보이는가?
- RQ3무방어 모델의 앙상블 사용이 EAD 공격의 전이성을 향상시키는가?
- RQ4타깃 대 비타깃 공격에서 공격 성공률과 왜곡 유형(L1/L2/L∞) 간의 트레이드오프는 무엇인가?
주요 결과
| 공격 방법 | 신뢰도 | ASR (타깃 공격 %) | L1 (타깃 공격) | L2 (타깃 공격) | L∞ (타깃 공격) | ASR (비타깃 공격 %) | L1 (비타깃 공격) | L2 (비타깃 공격) | L∞ (비타깃 공격) |
|---|---|---|---|---|---|---|---|---|---|
| PGD | None | 68.5 | 188.3 | 8.947 | 0.6 | 99.9 | 270.5 | 13.27 | 0.8 |
| I-FGM | None | 75.1 | 144.5 | 7.406 | 0.915 | 99.8 | 199.4 | 10.66 | 0.9 |
| C&W | 10 | 1.1 | 34.15 | 2.482 | 0.548 | 4.9 | 23.23 | 1.702 | 0.424 |
| C&W | 30 | 69.4 | 68.14 | 4.864 | 0.871 | 71.3 | 51.04 | 3.698 | 0.756 |
| C&W | 50 | 92.9 | 117.45 | 8.041 | 0.987 | 99.1 | 78.65 | 5.598 | 0.937 |
| C&W | 70 | 34.8 | 169.7 | 10.88 | 0.994 | 99 | 119.4 | 8.097 | 0.99 |
| EAD | 10 | 27.4 | 25.79 | 3.209 | 0.876 | 39.9 | 19.19 | 2.636 | 0.8 |
| EAD | 30 | 85.8 | 49.64 | 5.179 | 0.995 | 94.5 | 34.28 | 4.192 | 0.971 |
| EAD | 50 | 98.5 | 93.46 | 7.711 | 1 | 99.6 | 57.68 | 5.839 | 0.999 |
| EAD | 70 | 67.2 | 148.9 | 10.36 | 1 | 99.8 | 90.84 | 7.719 | 1 |
- EAD는 κ 설정에서 C&W를 능가하며 타깃 및 비타깃 케이스 모두에서 우수한 성능을 보임.
- 타깃 공격에서 최적 κ(예: 50) 시 EAD가 PGD/I-FGM보다 낮은 L1/L2 왜곡과 더 높은 전이성을 달성.
- β=0.01인 경우 특히 낮은 κ에서 L1 왜곡을 최소화하면서 ASR이 가장 높게 나타남.
- PGD/I-FGM은 높은 ASR에 도달할 수 있지만 L1/L2 왜곡이 커져 시각적으로 눈에 띄는 섭동을 야기할 수 있음.
- 시각적 비교에서 EAD가 평균 L∞ 왜곡이 유사하더라도 시각 품질을 보존하는 경향이 있음.
- 결과는 L∞만으로는 시각 왜곡과 적대적 부분공간을 충분히 설명하기 어렵다는 것을 시사.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.