[논문 리뷰] Adversarial Training and Robustness for Multiple Perturbations
여러 perturbation 유형에 걸친 강건성의 무역-off를 분석하고 다중 perturbation 적대적 학습 및 새로운 공격을 제안한다. 여러 perturbation에 대한 강건한 성능은 단일 perturbation 강건성만큼 달성하기 어렵고, MNIST에서 기울기 마스킹이 관찰된다.
Defenses against adversarial examples, such as adversarial training, are typically tailored to a single perturbation type (e.g., small $\ell_\infty$-noise). For other perturbations, these defenses offer no guarantees and, at times, even increase the model's vulnerability. Our aim is to understand the reasons underlying this robustness trade-off, and to train models that are simultaneously robust to multiple perturbation types. We prove that a trade-off in robustness to different types of $\ell_p$-bounded and spatial perturbations must exist in a natural and simple statistical setting. We corroborate our formal analysis by demonstrating similar robustness trade-offs on MNIST and CIFAR10. Building upon new multi-perturbation adversarial training schemes, and a novel efficient attack for finding $\ell_1$-bounded adversarial examples, we show that no model trained against multiple attacks achieves robustness competitive with that of models trained on each attack individually. In particular, we uncover a pernicious gradient-masking phenomenon on MNIST, which causes adversarial training with first-order $\ell_\infty, \ell_1$ and $\ell_2$ adversaries to achieve merely $50\%$ accuracy. Our results question the viability and computational scalability of extending adversarial robustness, and adversarial training, to multiple perturbation types.
연구 동기 및 목표
- 하나의 perturbation 유형에 대한 강건성이 다른 유형에 대해 왜 자주 감소하는지(MEPs)를 이해한다.
- 여러 perturbation 유형에 대해 동시에 강건성을 달성하기 위한 학습 스키마를 개발한다.
- 다중 perturbation 평가를 위한 효율적 공격(예: l1 포함)을 설계한다.
- MNIST와 CIFAR-10에서의 무역-off를 보여주고 기울기 마스킹 효과를 분석한다.
제안 방법
- 다중 perturbation 집합 S1,...,Sn과 두 가지 자연스러운 지표: 평균(Avg)와 최대(Max) 적대적 위험에 대해 적대적 위험을 정의한다.
- l_infinity, l1, l2 및 공간(스페이셜) 섭동 간의 이론적 무역-off(MEPs)를 증명한다.
- 다양한 perturbation 유형의 적대적 예제를 사용하는 다중 perturbation 적대적 학습 전략(Max 및 Avg)을 제안한다.
- 적대적 학습에 적합한 효율적 l1 공격인 Sparse L1 Descent(SLIDE)을 도입한다.
- 결합 섭동을 이해하기 위한 선형 변환 perturbation 분석을 개발하고 평가한다.
- MNIST CNN과 CIFAR-10 Wide-ResNet을 사용하여 MNIST와 CIFAR-10에서 실증적으로 평가한다.
실험 결과
연구 질문
- RQ1모델이 동시에 여러 perturbation 유형(l_infinity, l1, l2, 공간 perturbation)에 대해 강건할 수 있는가?
- RQ2자연統계적 모델에서 다중 perturbation 강건성의 이론적 한계는 무엇인가?
- RQ3다중 perturbation 학습 전략(Max/Avg)이 perturbation 유형 간 강건성을 향상시키는가, 그렇다면 비용은 무엇인가?
- RQ4perturbation의 선형 결합이 perturbation의 합집합보다 강건성에 어떤 영향을 주는가?
- RQ5다중 perturbation으로 확장했을 때 현재의 적대적 학습 방법이 그래디언트 마스킹의 영향을 받는가?
주요 결과
- 다중 perturbation에 대한 강건성은 단일 perturbation 학습과 비교하여 정확도 비용(일반적으로 5-10pp)을 수반한다.
- MNIST에서 l1, l2, 및 l_infinity 강건성은 기울기 마스킹을 보일 수 있어 1차 공격의 효과를 감소시킨다.
- 여러 perturbation(Avg/Max 전략)으로 학습된 모델은 다중 perturbation 강건성을 개선하지만 최적의 다중 perturbation 성능(OPT)에 도달하지 못하고 무역-offs가 나타난다.
- perturbation의 선형 결합은 단일 perturbation보다 더 강력할 수 있으며, perturbation의 합집합에 대한 강건성이 선형(Affine) 적대자에 대항하여 충분하지 않을 수 있다.
- SLIDE 공격은 더 강력한 공격과 경쟁할 수 있는 효율적인 l1 적대자를 제공하여 실제적인 다중 perturbation 학습을 가능하게 한다.
- CIFAR-10에서 Adv_avg 및 Adv_max는 다중 perturbation 강건성을 향상시키지만 여전히 최적의 합성 perturbation 강건성에 미치지 못한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.