[論文レビュー] Defense-GAN: Protecting Classifiers Against Adversarial Attacks Using Generative Models
Defense-GAN は分類前に入力を生成器のレンジに射影するために Wasserstein GAN を用い、敵対的摂動をノイズ除去し、分類器を変更せずに white-box および black-box 攻撃の両方から防御する。
In recent years, deep neural network approaches have been widely adopted for machine learning tasks, including classification. However, they were shown to be vulnerable to adversarial perturbations: carefully crafted small perturbations can cause misclassification of legitimate images. We propose Defense-GAN, a new framework leveraging the expressive capability of generative models to defend deep neural networks against such attacks. Defense-GAN is trained to model the distribution of unperturbed images. At inference time, it finds a close output to a given image which does not contain the adversarial changes. This output is then fed to the classifier. Our proposed method can be used with any classification model and does not modify the classifier structure or training procedure. It can also be used as a defense against any attack as it does not assume knowledge of the process for generating the adversarial examples. We empirically show that Defense-GAN is consistently effective against different attack methods and improves on existing defense strategies. Our code has been made publicly available at https://github.com/kabkabm/defensegan
研究の動機と目的
- white-box および black-box の脅威モデル全体で、分類器が敵対的摂動に対して脆弱であることを動機づける。
- 分類器を変更せず、攻撃モデルに依存しない防御を提案する。入力をGANの生成範囲に射影することで。
- 標準データセット上で防御の頑健性を示し、既存の防御と比較する。
- GANベースの再構成が検出と頑健性に与える影響を、異なる攻撃戦略の下で検討する。
提案手法
- データ分布をモデル化するために、正規データ上でWasserstein GANを訓練する。
- 推論時に、勾配降下法で L ステップと R 回のランダムリスタートを用いて min_z ||G(z) − x||^2 を解き、xを生成器のレンジに射影する。
- 再構成出力 G(z*) を生の入力の代わりに分類器へ入力する。
- 任意で再構成画像 (Defense-GAN-Rec) または元の画像 (Defense-GAN-Orig) で分類器を訓練する。
- 黒箱・白箱設定で、FGSM、RAND+FGSM、CW 攻撃に対して MagNet および adversarial training と Defense-GAN を比較する。
実験結果
リサーチクエスチョン
- RQ1Defense-GAN はターゲット分類器を変更せずに、白箱・黒箱の両方の敵対的攻撃に対して頑健な保護を提供できるか?
- RQ2GAN生成器のレンジに入力を射影することは、正当な画像品質を保ちながら敵対的摂動を効果的に除噪するか?
- RQ3 defender のハイパーパラメータ(GDステップ数 L とランダムリスタート数 R)は頑健性と計算コストにどう影響するか?
- RQ4Defense-GAN は異なるデータセットや攻撃手法に対して既存の防御(例:adversarial training、MagNet)と比較してどうか?
- RQ5再構成信号による再構成誤差で防御が攻撃検知を可能にするか?
主な発見
- Defense-GAN は MNIST および Fashion-MNIST において、ベースライン防御と比較して一般的な敵対的攻撃に対する頑健性を一貫して向上させる。
- 防御は white-box および black-box の両方の攻撃設定でも有効であり、分類器の構造変更を必要としない。
- GD の反復回数とランダムリスタートの数によって性能が影響を受け、一般に値を大きくすると頑健性が向上するが推定時間が増加する。
- GANの再構成による射影ベースのノイズ除去は、再構成誤差ベースの指標を通じて敵対的例を検出するために用いることができる。
- Defense-GAN は特定の強力な white-box 攻撃(例:CW)に対して adversarial training を超えることがあり、さまざまな攻撃戦略に対してより広範な防御を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。