QUICK REVIEW

[논문 리뷰] Improving Transferability of Adversarial Examples with Input Diversity

Cihang Xie, Zhishuai Zhang|arXiv (Cornell University)|2018. 03. 19.

Adversarial Robustness in Machine Learning참고 문헌 38인용 수 79

한 줄 요약

본 논문은 반복 공격 중 무작위 변환을 통한 입력 다양성(input diversity)을 도입하여 적대적 예제의 전달가능성을 높이고, 모멘텀과 앙상블 공격으로 이를 더욱 강화하여 ImageNet에서 블랙박스 성공률이 높게 달성됨을 제시한다.

ABSTRACT

Though CNNs have achieved the state-of-the-art performance on various vision tasks, they are vulnerable to adversarial examples --- crafted by adding human-imperceptible perturbations to clean images. However, most of the existing adversarial attacks only achieve relatively low success rates under the challenging black-box setting, where the attackers have no knowledge of the model structure and parameters. To this end, we propose to improve the transferability of adversarial examples by creating diverse input patterns. Instead of only using the original images to generate adversarial examples, our method applies random transformations to the input images at each iteration. Extensive experiments on ImageNet show that the proposed attack method can generate adversarial examples that transfer much better to different networks than existing baselines. By evaluating our method against top defense solutions and official baselines from NIPS 2017 adversarial competition, the enhanced attack reaches an average success rate of 73.0%, which outperforms the top-1 attack submission in the NIPS competition by a large margin of 6.6%. We hope that our proposed attack strategy can serve as a strong benchmark baseline for evaluating the robustness of networks to adversaries and the effectiveness of different defense methods in the future. Code is available at https://github.com/cihangxie/DI-2-FGSM.

연구 동기 및 목표

Iterative 공격이 화이트박스 모델에 과적합되는 이유를 이해하고 입력 변환이 전달가능성에 어떻게 기여하는지 파악한다.
공격 반복 중 확률적 변환을 적용하여 다양한 입력 공격(DI2-FGSM)을 개발한다.
입력 다양성과 모멘텀(MDI2-FGSM)을 결합하고 앙상블 공격으로 블랙박스 전달가능성을 최대화한다.
제안된 공격들을 ImageNet의 강력한 방어와 최상위 벤치마크에서 평가한다(또한 NIPS 2017 Adversarial Competition)

제안 방법

공격 반복 단계에서 입력에 확률 p로 무작위 차분 가능하고 미분 가능한 변환을 적용하여 diverse input pattern 공격을 정의한다.
레이블을 보존하는 T(·) 변환으로 임의 리사이징과 임의 패딩을 사용한다.
그래디언트 업데이트에 모멘텀을 도입하여 MI-FGSM 및 M-DI2-FGSM을 구성한다.
여러 네트워크의 앙상블을 공격하기 위해 로짓을 융합하여 공유되는 적대적 노이즈를 최적화한다.
화이트박스와 블랙박스 성능 간의 trade-off를 이해하기 위해 p, N, α에 대한 차별적 연구를 제공한다.
M-DI2-FGSM이 7개 네트워크와 NIPS 2017 대회에서 베이스라인보다 더 높은 블랙박스 성공률을 달성함을 입증한다.

실험 결과

연구 질문

RQ1공격 반복 중 입력 변환이 보지 못한 모델로의 적대적 예제 전달가능성을 높일 수 있는가?
RQ2입력 다양성과 모멘텀의 결합이 화이트박스 대 블랙박스 성공률에 어떤 영향을 미치는가?
RQ3앙상블 모델을 공격하는 것이 보류된 네트워크에의 전달가능성을 더욱 개선하는가?
RQ4변환 확률과 반복 설정이 공격 효과에 미치는 실용적 영향은 무엇인가?

주요 결과

DI2-FGSM 및 그 모멘텀 변형인 M-DI2-FGSM은 ImageNet에서 전통적인 I-FGSM 및 MI-FGSM에 비해 블랙박스 모델로의 전달가능성을 크게 향상시킨다.
M-DI2-FGSM은 IncRes-v2를 화이트박스로 공격할 때 Inc-v4에서 평균 전달가능성이 67.4%에 달하는 등 7개 네트워크에서 더 높은 평균 전달가능성을 달성하며 블랙박스 모델에서도 실질적 이득을 얻는다.
단일 네트워크 설정에서 M-DI2-FGSM은 대다수 블랙박스 타깃에서 베이스라인을 능가하며 Res-152에서 Inc-v3로의 전달에서 53.8%와 같은 유의한 증가를 포함한다(블랙박스 Inc-v3의 경우).
여섯 개 네트워크를 앙상블하고 M-DI2-FGSM을 적용하면 앙상테스트에서 Inc-v3 ens3 hold-out에서 최대 44.6%의 강력한 전달가능성을 달성한다.
NIPS 2017 Adversarial Competition 벤치마크에서 M-DI2-FGSM의 평균 성공률은 73.0%로 최상위 제출보다 6.6%포인트 높다.
Ablation 연구는 더 큰 p 값에서 블랙박스 성공이 증가하지만 화이트박스 성능이 감소할 수 있으며, 더 많은 반복 횟수 N이 일반적으로 전달가능성을 높임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.