Skip to main content
QUICK REVIEW

[논문 리뷰] Boosting Adversarial Attacks with Momentum

Yinpeng Dong, Fangzhou Liao|arXiv (Cornell University)|2017. 10. 17.
Adversarial Robustness in Machine Learning참고 문헌 29인용 수 50
한 줄 요약

본 논문은 모멘텀 기반의 반복 그래디언트 방법들(MI-FGSM 및 변형들)을 도입하여 적대적 공격을 강화하고, 화이트박스 강도와 블랙박스 전이성를 개선하며, 강인한 방어를 깨뜨리기 위한 앙상블 모델 공격을 보여준다.

ABSTRACT

Deep neural networks are vulnerable to adversarial examples, which poses security concerns on these algorithms due to the potentially severe consequences. Adversarial attacks serve as an important surrogate to evaluate the robustness of deep learning models before they are deployed. However, most of existing adversarial attacks can only fool a black-box model with a low success rate. To address this issue, we propose a broad class of momentum-based iterative algorithms to boost adversarial attacks. By integrating the momentum term into the iterative process for attacks, our methods can stabilize update directions and escape from poor local maxima during the iterations, resulting in more transferable adversarial examples. To further improve the success rates for black-box attacks, we apply momentum iterative algorithms to an ensemble of models, and show that the adversarially trained models with a strong defense ability are also vulnerable to our black-box attacks. We hope that the proposed methods will serve as a benchmark for evaluating the robustness of various deep models and defense methods. With this method, we won the first places in NIPS 2017 Non-targeted Adversarial Attack and Targeted Adversarial Attack competitions.

연구 동기 및 목표

  • 딥 모델에 대한 적대적 위협에 대한 견고한 평가를 목표로 한다.
  • 업데이트를 안정화하고 전이성을 개선하기 위해 모멘텀 기반의 반복 공격 방법을 개발한다.
  • 블랙박스 성공률을 높이기 위해 모델 앙상블 공격의 효과를 입증한다.
  • 앙상블 적대적 학습으로 훈련된 모델도 강력한 공격에 취약하다는 점을 보여준다.

제안 방법

  • 반복 그래디언트 공격(MI-FGSM)에 모멘텀을 도입하여 누적 그래디언트 g_{t+1} = μ g_t + grad(J(x_t*, y))/||grad(J)||_1 및 x_{t+1}* = x_t* + α sign(g_{t+1})를 통해 업데이트 방향을 안정화한다.
  • L2 노름 및 타겟 공격에도 모멘텀을 확장하고 해당 업데이트 규칙을 제시한다.
  • 로짓을 융합하여 앙상블 공격을 제안한다: l(x) = sum_k w_k l_k(x); 앙상블 로짓을 사용하여 J(x, y)를 최적화한다.
  • 앙상블 스킴(logits, predictions, loss)을 비교하고 앙상블 로짓을 사용하는 공격이 가장 강력하다는 것을 보인다.
  • ImageNet에서 7개 모델로 실험하고 MI-FGSM이 흑박스 전이에서 FGSM 및 I-FGSM보다 우수한 성능과 화이트박스 강도를 보인다.

실험 결과

연구 질문

  • RQ1모멘텀을 반복 그래디언트 기반 공격에 통합하여 적대적 예제의 전이성을 향상시킬 수 있는가?
  • RQ2앙상블 모델을 대상으로 공격하는 것이 흑박스 공격 성공률을 높이는가, 특히 방어 모델에 대해서는 어떠한가?
  • RQ3앙상블-로짓 기반 공격이 앙상블-예측 또는 앙상블-손실 기반 접근보다 더 효과적인가?
  • RQ4모멘텀 기반 공격이 앙상블 적대적 학습으로 훈련된 모델에 위협이 되는가?

주요 결과

AttackInc-v3Inc-v4IncRes-v2Res-152Inc-v3 ens3Inc-v3 ens4IncRes-v2 ens
FGSM72.3*28.226.225.311.310.94.8
I-FGSM100.0*22.819.916.27.56.44.1
MI-FGSM100.0*48.848.035.615.115.27.8
  • MI-FGSM은 화이트박스 모델에서 99%에 근접한 성공률을 달성하고 I-FGSM 및 FGSM에 비해 흑박스 전이 성공률을 크게 높인다.
  • 모멘텀(μ가 대략 1.0인 경우)은 업데이트 방향을 안정시키고 여러 흑박스 모델에 걸쳐 전이성을 향상시킨다.
  • 앙상블-로짓 공격은 앙상블-예측 또는 앙상블-손실 접근보다 모델 간 성능이 더 높다.
  • 적대적으로 훈련된 앙상블은 MI-FGSM 흑박스 공격에 여전히 취약하며, 방어에 따라 상당한 성공률(예: 일부 방어에서 약 40% 수준)로 나타난다.
  • 대응 공격은 NIPS 2017 Non-targeted 및 Targeted Adversarial Attack 대회에서 1위를 차지했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.