Skip to main content
QUICK REVIEW

[論文レビュー] Defense-GAN: Protecting Classifiers Against Adversarial Attacks Using Generative Models

Pouya Samangouei, Maya Kabkab|arXiv (Cornell University)|May 17, 2018
Adversarial Robustness in Machine Learning参考文献 20被引用数 284
ひとこと要約

Defense-GAN は、入力を生成器のレンジへ射影するために Wasserstein GAN を使用して分類前に行い、分類器を変更せずに白箱・黒箱の敵対的攻撃の両方に対する防御を実現します。MNIST および Fashion-MNIST データセットでいくつかのベースラインを上回ります。

ABSTRACT

In recent years, deep neural network approaches have been widely adopted for machine learning tasks, including classification. However, they were shown to be vulnerable to adversarial perturbations: carefully crafted small perturbations can cause misclassification of legitimate images. We propose Defense-GAN, a new framework leveraging the expressive capability of generative models to defend deep neural networks against such attacks. Defense-GAN is trained to model the distribution of unperturbed images. At inference time, it finds a close output to a given image which does not contain the adversarial changes. This output is then fed to the classifier. Our proposed method can be used with any classification model and does not modify the classifier structure or training procedure. It can also be used as a defense against any attack as it does not assume knowledge of the process for generating the adversarial examples. We empirically show that Defense-GAN is consistently effective against different attack methods and improves on existing defense strategies. Our code has been made publicly available at https://github.com/kabkabm/defensegan

研究の動機と目的

  • 敵対的摂動で深層ネットワークを誤導しうる頑健な分類を動機づける。
  • 未摂動データの分布をモデル化するために生成モデルを活用する。
  • 分類器や攻撃特有の仮定を変更することを必要としない防御を提供する。
  • ベンチマークデータセット全体で白箱および黒箱の両方の攻撃に対して効果を示す。

提案手法

  • 正当な訓練データ上で Wasserstein GAN (WGAN) を訓練してデータ分布をモデル化する。
  • 推論時に、勾配降下法を用いて複数回の乱択再起動(L 回のステップ,R 回の再起動)を行い ||G(z) - x||^2 を最小化する z を解く。
  • 再構成画像 G(z*) を入力として分類器に渡し、元の入力の代わりに使用する。
  • 分類器のアーキテクチャや訓練手続きを変更しない;防御は前処理として機能する。
  • 任意で再構成画像で分類器を訓練して Defense-GAN-Rec vs Defense-GAN-Orig を構成する。
  • FGSM、RAND+FGSM、 CW 攻撃の白箱・黒箱設定で adversarial training と MagNet と比較する。

実験結果

リサーチクエスチョン

  • RQ1GAN ベースの射影で分類器を変更せずに白箱・黒箱の敵対的攻撃の両方に対して防御できるか?
  • RQ2入力を GAN レンジへ射影することで、クリーンデータの精度を保ちつつ敵対的摂動を低減できるか?
  • RQ3Defense-GAN は既存の防御( adversarial training、MagNet )と比較して共通の攻撃戦略に対してどうか?
  • RQ4ハイパーパラメータ L(GD ステップ数)と R(乱択再起動)の防御効果と検出能力への影響は?

主な発見

  • Defense-GAN は、ベースラインと比較して MNIST および Fashion-MNIST で一般的な敵対的攻撃に対する頑健性を一貫して改善する。
  • 防御は分類器の変更を必要とせず、任意のモデルで使用可能である。
  • attacker が潜在コードの乱択初期値を知っている場合を含む CW を含む白箱攻撃に対しても頑健性が維持される。
  • Defense-GAN は再構成誤差(MSE)の閾値を介して攻撃検出を可能にする。
  • GD 反復回数と乱択再起動の増加は一般に検出性能と防御効果を向上させる一方、推論時間とトレードオフが生じる。
  • Defense-GAN のバリアント(Defense-GAN-Rec 対 Defense-GAN-Orig)は、再構成画像で訓練した場合と元画像で訓練した場合で同様の性能を示し、再構成と元画像の訓練に対して頑健であることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。