[論文レビュー] Generating Adversarial Examples with Adversarial Networks
AdvGANはGANベースの生成器を訓練し、知覚的にリアルな敵対的摂動を生成します。これにより、防御に対しても高い成功率を維持しつつ、半白箱・黒箱攻撃を高速に実行できるようになります。
Deep neural networks (DNNs) have been found to be vulnerable to adversarial examples resulting from adding small-magnitude perturbations to inputs. Such adversarial examples can mislead DNNs to produce adversary-selected results. Different attack strategies have been proposed to generate adversarial examples, but how to produce them with high perceptual quality and more efficiently requires more research efforts. In this paper, we propose AdvGAN to generate adversarial examples with generative adversarial networks (GANs), which can learn and approximate the distribution of original instances. For AdvGAN, once the generator is trained, it can generate adversarial perturbations efficiently for any instance, so as to potentially accelerate adversarial training as defenses. We apply AdvGAN in both semi-whitebox and black-box attack settings. In semi-whitebox attacks, there is no need to access the original target model after the generator is trained, in contrast to traditional white-box attacks. In black-box attacks, we dynamically train a distilled model for the black-box model and optimize the generator accordingly. Adversarial examples generated by AdvGAN on different target models have high attack success rate under state-of-the-art defenses compared to other attacks. Our attack has placed the first with 92.76% accuracy on a public MNIST black-box attack challenge.
研究の動機と目的
- 高品質で効率的に生成された敵対的サンプルの必要性を動機づける。
- ターゲットモデルを欺く一方で現実のように見える摂動を学習するAdvGANを提案する。
- 半白箱および黒箱設定でのAdvGANの有効性を実証する。
- 最新の防御に対するAdvGANのロバスト性と大規模課題での性能を示す。
提案手法
- 入力xで条件付けされたGANを形成する生成器Gと識別器Dを導入する。
- 敵対的損失L_adv^fを用いて摂動をターゲットクラスへ向けるか真のクラスから逸らす。
- 生成された摂動を元のデータと視覚的に類似させるようGAN損失L_GANを組み込む。
- 摂動の大きさを制限しGANの訓練を安定化させるためにヒンジ損失L_hingeを加える。
- 損失をL = L_adv^f + α L_GAN + β L_hingeとして組み合わせ、ミンマックスゲームmin_G max_D Lを訓練する。
- 黒箱攻撃の場合、静的蒸留と動的蒸留を用いてターゲットモデルを近似し、それに応じてGを適応させる。
実験結果
リサーチクエスチョン
- RQ1AdvGANはホワイトボックスおよびブラックボックス設定下でモデルを効果的に欺く perceptually realistic な敵対的例を生成できるか。
- RQ2AdvGANは他の攻撃と比べて最先端の防御に対してどのように性能を発揮するか。
- RQ3転移性に頼らずブラックボックス攻撃を効果的に実行できるか。
- RQ4動的蒸留と静的蒸留がブラックボックス攻撃性能に与える影響は何か。
- RQ5高解像度の敵対的例は知覚的現実性を維持しつつ高い攻撃成功を得られるか。
主な発見
- AdvGANは半白箱設定でMNISTとCIFAR-10の両方で高い攻撃成功率を達成する(MNIST: A 97.9%, B 97.1%, C 98.3%; CIFAR-10: ResNet 94.7%, Wide ResNet 99.3%)。
- 動的蒸留を用いたブラックボックス攻撃は高い成功率に達する(MNIST b-D 93.4%, CIFAR-10 b-D 78.5% for ResNet and 81.8% for Wide ResNet)。
- AdvGANは防御下で強い性能を発揮する。半白箱防御下ではFGSMやいくつかの最適化法より高い攻撃率を示す(例:MNIST A 8.0%、A: AdvGAN 11.5%で1つの防御下)。CIFAR-10 ResNet 16.03%がAdvGAN、FGSMは11.9%。
- MadryLabモデルを用いたMNISTチャレンジでは、AdvGANがホワイトボックスで88.93%、ブラックボックスで92.76%の精度を達成(チャレンジ内トップのパフォーマンス)。
- Inception_v3に対する高解像度の敵対的例は299×299でL_infinity境界0.01のとき攻撃成功率100%を示し、人間の知覚実験でもAdvGANの例は健全な画像にほぼ近い現実性を示す(AMT: AdvGANをより現実的と回答した割合49.4%)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。