[論文レビュー] Adversarial Transformation Networks: Learning to Generate Adversarial Examples
ATN は、対象分類器に対して敵対的な例を生成するためにフィードフォワード網として訓練され、MNIST と ImageNet(Inception ResNet v2)上で自己教師付き訓練により迅速で多様かつターゲットを絞った攻撃を可能にする。
Multiple different approaches of generating adversarial examples have been proposed to attack deep neural networks. These approaches involve either directly computing gradients with respect to the image pixels, or directly solving an optimization on the image pixels. In this work, we present a fundamentally new method for generating adversarial examples that is fast to execute and provides exceptional diversity of output. We efficiently train feed-forward neural networks in a self-supervised manner to generate adversarial examples against a target network or set of networks. We call such a network an Adversarial Transformation Network (ATN). ATNs are trained to generate adversarial examples that minimally modify the classifier's outputs given the original input, while constraining the new classification to match an adversarial target class. We present methods to train ATNs and analyze their effectiveness targeting a variety of MNIST classifiers as well as the latest state-of-the-art ImageNet classifier Inception ResNet v2.
研究の動機と目的
- ディープ分類器の弱点を動機づけ、敵対的な例を生成して示す。
- 非トップ出力順序を保持しつつ敵対的入力を生成する Adversarial Transformation Networks を提案する。
- MNIST分類器と最先端のImageNetモデルに対して、ターゲットを絞った白箱ATN訓練を実演する。
- 転移性、内部状態情報、およびATNの並列/直列使用を分析する。
提案手法
- ターゲット分類器 f に対して adversarial な例 x' を出力するニューラルネットワーク g_{f,θ}(x) を定義する。
- ATNを、結合された損失 β L_{X}(g_{f,θ}(x), x) + L_{Y}(f(g_{f,θ}(x)), f(x)) を最小化することで訓練する。
- L_{Y} を reranking 関数 r(y, t) で構築し、変換後にターゲットクラス t がトップになるようにターゲット攻撃を用いる。
- 2 種類のATN変種を検討する: Perturbation ATN (P-ATN) および Adversarial Autoencoding (AAE) ATN、出力を有効な入力範囲(例:tanh 活性化)に制約。
- ターゲットラベルを必要とせず、固定ターゲット分類器に対して自己教師ありで訓練する。
実験結果
リサーチクエスチョン
- RQ1フィードフォワードネットワークを訓練して、ターゲット分類器に対して有効なターゲット付き敵対的例を生成できるか?
- RQ2一つのネットワークで訓練したATNは他のネットワークへ転移するか、複数のネットワークを同時に攻撃するよう訓練できるか?
- RQ3内部分類器信号(インサイダー情報)を提供するとATNの有効性は向上し、特に二次出力順序の維持に寄与するか?
- RQ4ATNを並列または直列で適用した場合の振る舞いはどうなり、画像品質と攻撃成功にどのような影響を与えるか?
- RQ5MNISTで訓練したATNは大規模なImageNetモデルに拡張されるか、異なるATNアーキテクチャは敵の多様性と強さにどう影響するか?
主な発見
- ATNはMNIST分類器に対して高いターゲット誤認率を達成できるが、βによって成功率が異なり、より小さなβはより忠実な再構成をもたらす一方、攻撃成功率は高くなる。
- AAE ATNは一般にTop-1の敵対的精度においてInception ResNet v2を搭載したImageNetに対して Perturbation ATN よりも上回るが、摂動アプローチは元のピクセルをより多く保持する。
- ATN変換は敵対出力を多様化する傾向があり、単一の摂動パターンではなく、さまざまな妥当な摂動を生み出す。
- 転移性テストはATN攻撃が異なるアーキテクチャ間で普遍的ではないことを示す。1つのネットワークを攻撃するよう訓練されたモデルは他を自動的に欺かない。
- 複数のネットワークからの信号でATNを訓練すると、訓練ターゲットでの性能が高く、 unseen ネットワークへのある程度の転移が見られ、成功は様々。*
- ターゲット分類器の内部状態情報を提供することで、二次出力の保存を改善し、2位クラスの条件付き成功率を高めることができる。*
- ATNを直列に適用すると画像品質が劣化する一方、並列適用は複数のネットワークに対して広範な成功を得られるが、より多くのATNを連鎖させると収益が減少する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。