QUICK REVIEW

[論文レビュー] APE-GAN: Adversarial Perturbation Elimination with GAN

Shiwei Shen, Guoqing Jin|arXiv (Cornell University)|Jul 18, 2017

Adversarial Robustness in Machine Learning参考文献 31被引用数 80

ひとこと要約

APE-GANは、分類器に入力を与える前に敵対的摂動を除去するGenerative Adversarial Networkを使用し、MNIST、CIFAR-10、ImageNetへの複数の攻撃に対するロバスト性を改善します。

ABSTRACT

Although neural networks could achieve state-of-the-art performance while recongnizing images, they often suffer a tremendous defeat from adversarial examples--inputs generated by utilizing imperceptible but intentional perturbation to clean samples from the datasets. How to defense against adversarial examples is an important problem which is well worth researching. So far, very few methods have provided a significant defense to adversarial examples. In this paper, a novel idea is proposed and an effective framework based Generative Adversarial Nets named APE-GAN is implemented to defense against the adversarial examples. The experimental results on three benchmark datasets including MNIST, CIFAR10 and ImageNet indicate that APE-GAN is effective to resist adversarial examples generated from five attacks.

研究の動機と目的

深層ニューラルネットワークにおける不可知感覚的な敵対的摂動に対する防御を動機づける。
敵対的入力からクリーンのような画像を再構成するGANベースのフレームワーク（APE-GAN）を提案する。
MNIST、CIFAR-10、ImageNetに対して複数の攻撃手法に対する有効性を示す。
ターゲットモデルのアーキテクチャの知識を必要とせずに防御が動作することを示す。

提案手法

DCGAN風のセットアップでジェネレータGとディスクリプタDを導入し、敵対的入力X_advをクリーンなXに似る再構成X_hatへ写像する。
出力がクリーン画像の多様体上にあるように、ピクセルレベルのコンテンツ損失と敵対的損失を組み合わせた合成損失l_apeでGを訓練する。
実在するクリーン画像とG(X_adv)を識別するようDを訓練し、GとDの間でミニマックス目的を設定する。
敵対的摂動除去を用い、摂動は画像の内容を保持しつつ除去されるように学習する。
6つの敵対的攻撃（L-BFGS、FGSM、DeepFool、JSMA、CW L0/L2/L∞）に対して3つのデータセット（MNIST、CIFAR-10、ImageNet）で評価する。
MNIST、CIFAR-10、ImageNetの各バリアント（APE-GAN m, c, i）と訓練設定（学習率、オプティマイザ、バッチサイズ）のアーキテクチャの詳細を提供する。

実験結果

リサーチクエスチョン

RQ1ターゲットモデルのパラメータにアクセスせずに、GANベースの摂動除去器は敵対的入力からクリーンのような画像を再構成できるか。
RQ2複数のデータセットと敵対的攻撃法に対して、APE-GANは正しい分類を復元するうえでどれだけ有効か。
RQ3APE-GANによる前処理は、良性（非敵対的）入力の性能を低下させないか。
RQ4追加の防御（例：敵対的訓練）と組み合わせることで、ロバスト性を高められるか。

主な発見

Attack	MNIST Target Model	MNIST APE-GAN m	CIFAR-10 Target Model	CIFAR-10 APE-GAN c	ImageNet Top-1 Target Model	ImageNet Top-1 APE-GAN i
L-BFGS	93.4	2.2	92.7	19.9	93.3	42.9
FGSM	96.3	2.8	77.8	26.4	72.9	40.1
DeepFool	97.1	2.2	98.3	19.2	98.4	45.9
JSMA	97.8	38.6	94.1	38.3	98.7	45.0
CW-L0	100.0	27.0	100.0	46.9	100.0	29.4
CW-L2	100.0	1.5	100.0	30.5	99.7	26.1
CW-L∞	100.0	1.2	100.0	32.2	100.0	27.0

MNIST、CIFAR-10、ImageNetで、APE-GANは攻撃に対する敵対的誤分類率を大幅に低減する。例として、L-BFGS入力はMNISTで93.4%から2.2%へ、CIFAR-10で92.7%から19.9%へ、ImageNet Top-1は再構成後に93.3%から42.9%へ低下。
FGSM入力はMNISTで96.3%から2.8%へ、ImageNetで72.9%から40.1%へ低下。
DeepFool入力はMNISTで97.1%から2.2%へ、ImageNetで98.4%から45.9%へ低下。
JSMA入力はMNISTで97.8%から38.6%へ、CIFAR-10で38.3%へ低下。
CW攻撃は標的モデルに対して依然として高い効果を持つが、再構成により影響が軽減（例：MNISTのCW-L0は100.0%から27.0%へ、MNISTのCW-L2は100.0%から1.5%へ）。
良性入力はクリーン精度の著しい低下を示さず、APE-GANはクリーンまたはランダムなノイズ画像の誤分類率を有意に高めない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。