QUICK REVIEW

[論文レビュー] Defending Against Adversarial Attacks by Leveraging an Entire GAN

Gokula Krishnan Santhanam, Paulina Grnarova|arXiv (Cornell University)|May 27, 2018

Adversarial Robustness in Machine Learning参考文献 10被引用数 24

ひとこと要約

この論文では、事前学習済みのGANの生成器と識別器を活用して、 adversarialな入力を検出し、クリーニングするGANベースの防御手法であるCowboyを提案する。 adversarialなサンプルはデータ多様体の外にあるという事実を活用し、識別器で検出し、生成器で多様体に戻してクリーニングすることで、分類器の精度を、攻撃の最悪ケースにおいて0.02%から0.81%に向上させる。

ABSTRACT

Recent work has shown that state-of-the-art models are highly vulnerable to adversarial perturbations of the input. We propose cowboy, an approach to detecting and defending against adversarial attacks by using both the discriminator and generator of a GAN trained on the same dataset. We show that the discriminator consistently scores the adversarial samples lower than the real samples across multiple attacks and datasets. We provide empirical evidence that adversarial samples lie outside of the data manifold learned by the GAN. Based on this, we propose a cleaning method which uses both the discriminator and generator of the GAN to project the samples back onto the data manifold. This cleaning procedure is independent of the classifier and type of attack and thus can be deployed in existing systems.

研究の動機と目的

深層ニューラルネットワークが、人間の知覚に負けるような微小な adversarial な摂動に対して脆弱であるという問題に対処すること。
ターゲット分類器や攻撃タイプに依存しない防御機構を構築し、プラグアンドプレイでの導入を可能にすること。
adversarialなサンプルがGANが学習したデータ多様体の外にあるという事実を、実証的に検証すること。
生成器と識別器を併用したクリーニング手順を設計し、adversarialなサンプルをデータ多様体に戻すこと。
分類器の再訓練や変更なしに、複数のデータセットおよび攻撃手法に一般化できることを示すこと。

提案手法

adversarialなサンプルを含まない実データのみで標準的なGANを学習する。
学習済みの識別器を用いて入力サンプルにスコアを付与し、低いスコアはadversarialである可能性が高いことを示す。
生成器による再構成と高い識別器スコアの両方を最適化するクリーニング目的関数を適用する。
反復的な最適化により、adversarialな入力をデータ多様体に近づけつつ、識別器の信頼度を最大化する。
元の分類器に供給する前に、クリーニングされたサンプルを前処理として使用する。
この手法が分類器のアーキテクチャや学習プロセスに依存しないことを保証する。

実験結果

リサーチクエスチョン

RQ1adversarialなサンプルは、実データで学習されたGANが学習したデータ多様体の外にあるのか？
RQ2GANの識別器は、多様な攻撃やデータセットにおいて、adversarialなサンプルを信頼性高く検出できるか？
RQ3生成器と識別器を組み合わせたクリーニング目的関数は、生成器のみを用いる場合よりも、より高い耐性を発揮するか？
RQ4GANの品質が、検出およびクリーニング性能に与える影響は何か？
RQ5この防御は、分類器を再訓練や変更なしに、プラグイン型の前処理ステップとして導入可能か？

主な発見

すべてのテストされた攻撃およびデータセットにおいて、識別器はadversarialなサンプルに対して、実サンプルよりも低いスコアを一貫して割り当てており、多様体外の入力を検出できる能力が裏付けられた。
FGSM攻撃を施したSVHNデータセットにおいて、Cowboyによるクリーニング後、分類器の精度が0.02%から0.81%に向上した。これは顕著な耐性の向上を示している。
Defense-GAN（生成器のみを用いる手法）に比べ、Cowboyはすべてのデータセットおよび攻撃において優れた性能を示し、識別器スコアを組み込むことの追加的価値を実証した。
GANの学習が不十分であっても、検出性能は安定しており、GAN学習の不安定性に対しても頑健であることが示された。
より良いGANの学習が進むほどクリーニング性能が向上するが、検出性能は学習初期段階からも効果的であり、実用的な導入可能性を示している。
FGSM、BIM、PGDM、MIM、VAMといった複数の攻撃タイプに一般化可能であり、攻撃タイプに合わせた適応は不要であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。