Skip to main content
QUICK REVIEW

[논문 리뷰] Generating Adversarial Examples with Adversarial Networks

Chaowei Xiao, Bo Li|arXiv (Cornell University)|2018. 01. 08.
Adversarial Robustness in Machine Learning참고 문헌 34인용 수 238
한 줄 요약

AdvGAN은 GAN 기반의 생성기를 학습시켜 지각적으로 현실적인 적대적扰 perturbations를 생성하고, 빠른 반화이트박스 및 블랙박스 공격을 가능하게 하며 높은 성공률을 달성합니다. defenses에도 강한 성능을 보입니다.

ABSTRACT

Deep neural networks (DNNs) have been found to be vulnerable to adversarial examples resulting from adding small-magnitude perturbations to inputs. Such adversarial examples can mislead DNNs to produce adversary-selected results. Different attack strategies have been proposed to generate adversarial examples, but how to produce them with high perceptual quality and more efficiently requires more research efforts. In this paper, we propose AdvGAN to generate adversarial examples with generative adversarial networks (GANs), which can learn and approximate the distribution of original instances. For AdvGAN, once the generator is trained, it can generate adversarial perturbations efficiently for any instance, so as to potentially accelerate adversarial training as defenses. We apply AdvGAN in both semi-whitebox and black-box attack settings. In semi-whitebox attacks, there is no need to access the original target model after the generator is trained, in contrast to traditional white-box attacks. In black-box attacks, we dynamically train a distilled model for the black-box model and optimize the generator accordingly. Adversarial examples generated by AdvGAN on different target models have high attack success rate under state-of-the-art defenses compared to other attacks. Our attack has placed the first with 92.76% accuracy on a public MNIST black-box attack challenge.

연구 동기 및 목표

  • 고품질의 효율적으로 생성된 적대적 예제의 필요성을 동기 부여한다.
  • 타깃 모델을 속이면서 실제처럼 보이는 perturbation을 학습하도록 AdvGAN를 제안한다.
  • 반화이트박스 및 블랙박스 설정에서 AdvGAN의 효과를 입증한다.
  • 최신 방어에 대한 강건성과 대규모 도전에서 AdvGAN의 견고함을 보여준다.

제안 방법

  • 입력 x에 조건화된 GAN을 구성하는 생성기 G와 판별기 D를 도입한다.
  • perturbation을 목표 클래스 쪽이나 실제 클래스에서 멀어지게 만들기 위해 적대적 손실 L_adv^f를 사용한다.
  • 생성된 perturbation을 원본 데이터와 시각적으로 유사하게 유지하기 위해 GAN 손실 L_GAN을 도입한다.
  • perturbation의 크기를 제약하고 GAN 학습을 안정화하기 위해 힌지 손실 L_hinge를 추가한다.
  • 손실들을 L = L_adv^f + α L_GAN + β L_hinge로 결합하고 min_G max_D L로 제너레이션-디스크레이션 게임을 학습한다.
  • 블랙박스 공격의 경우 대상 모델을 근사하고 G를 이에 맞게 조정하기 위해 정적(distillation)과 동적(distillation)을 활용한다.

실험 결과

연구 질문

  • RQ1AdvGAN가 화이트박스 및 블랙박스 설정에서 모델을 효과적으로 속이면서 지각적으로 현실적인 적대적 예제를 생성할 수 있는가?
  • RQ2다른 공격들과 비교했을 때 최첨단 방어에 대해 AdvGAN의 성능은 어떠한가?
  • RQ3전이 가능성에 의존하지 않고도 블랙박스 공격을 효과적으로 수행할 수 있는가?
  • RQ4블랙박스 공격 성능에 대한 동적 distillation과 정적 distillation의 영향은 무엇인가?
  • RQ5고해상도 적대적 예제가 높은 공격 성공률을 유지하며 지각적 현실성을 보이는가?

주요 결과

  • AdvGAN은 MNIST와 CIFAR-10에서 반화이트박스 설정에서 높은 공격 성공률을 달성한다(MNIST: A 97.9%, B 97.1%, C 98.3%; CIFAR-10: ResNet 94.7%, Wide ResNet 99.3%).
  • 동적 distillation을 사용하는 블랙박스 공격은 높은 성공률을 달성한다(MNIST b-D 93.4%, CIFAR-10 b-D 78.5% for ResNet and 81.8% for Wide ResNet).
  • AdvGAN은 방어 하에서도 강력한 성능을 달성한다; 반화이트박스 방어에서 FGSM 및 일부 Opt 방법보다 공격 비율이 높다(예: MNIST A 8.0%, A: AdvGAN 11.5% under one defense; CIFAR-10 ResNet 16.03% under AdvGAN vs 11.9% for FGSM).
  • MadryLab 모델과 함께하는 MNIST 도전에서 AdvGAN은 화이트박스에서 88.93%, 블랙박스에서 92.76%의 정확도를 달성하며 도전의 최고 성능을 보인다.
  • Inception_v3에 대한 고해상도 적대적 예제는 299×299에서 L_infinity 경계 0.01로 100% 공격 성공을 달성하며, 인간의 지각 연구에서도 AdvGAN 예제가 인간적으로 거의 더 사실적인 것으로 나타난다(AMT: 49.4%가 AdvGAN를 더 사실적이라고 선택).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.