QUICK REVIEW

[論文レビュー] GAT: Generative Adversarial Training for Adversarial Example Detection and Robust Classification

Xuwang Yin, Soheil Kolouri|arXiv (Cornell University)|May 27, 2019

Adversarial Robustness in Machine Learning被引用数 23

ひとこと要約

本稿では、適応的かつノルム制約付きホワイトボックス攻撃に対しても頑健なままである、敵対的サンプルを検出する原理的で洗練された手法GAT（生成的対抗的訓練）を提案する。K個のバイナリ分類器を、各クラスの正規サンプルと他のクラスの敵対的摂動を加えたサンプルを区別するように学習させ、それらを非正規化密度モデルとして解釈することで、GATは頑健な検出と生成的分類を両立可能とし、MNISTでは平均$L_2$歪みが5.65向上、CIFAR-10では1.5向上する最先端の性能を達成する。

ABSTRACT

The vulnerabilities of deep neural networks against adversarial examples have become a significant concern for deploying these models in sensitive domains. Devising a definitive defense against such attacks is proven to be challenging, and the methods relying on detecting adversarial samples are only valid when the attacker is oblivious to the detection mechanism. In this paper we propose a principled adversarial example detection method that can withstand norm-constrained white-box attacks. Inspired by one-versus-the-rest classification, in a K class classification problem, we train K binary classifiers where the i-th binary classifier is used to distinguish between clean data of class i and adversarially perturbed samples of other classes. At test time, we first use a trained classifier to get the predicted label (say k) of the input, and then use the k-th binary classifier to determine whether the input is a clean sample (of class k) or an adversarially perturbed example (of other classes). We further devise a generative approach to detecting/classifying adversarial examples by interpreting each binary classifier as an unnormalized density model of the class-conditional data. We provide comprehensive evaluation of the above adversarial example detection/classification methods, and demonstrate their competitive performances and compelling properties.

研究の動機と目的

医療、金融、自律走行システムなど、安全が求められる応用分野における深層ニューラルネットワークの敵対的サンプルに対する脆弱性を解消すること。
検出メカニズムを把握した攻撃者による適応的攻撃に対して失敗する既存の検出手法の限界を克服すること。
攻撃者が検出手法を回避するために攻撃を最適化しても、依然として高い性能を維持できる原理的で洗練された検出フレームワークを開発すること。
検出フレームワークから導出される生成的モデリングを活用し、予測の解釈可能性と頑健性を向上させること。
GATで学習されたモデルが、認識不能な入力を用いても騙されやすい標準的な頑健分類器とは異なり、意味的に意味のある特徴を持つ予測を生成することを実証すること。

提案手法

Kクラス分類問題において、i番目のバイナリ分類器を、クラスiの正規サンプルと、他のすべてのクラスの敵対的摂動を加えたサンプルを区別するように学習する。
推論時、元の分類器を用いて入力のラベル$\hat{k}$を予測し、その後$\hat{k}$番目のバイナリ分類器を適用して、入力が正規か敵対的かを判定する。
各バイナリ分類器を、クラス条件付きデータ分布の非正規化密度モデルとして解釈することで、生成的検出および分類を可能にする。
さまざまなステップ数とステップサイズを用いた投影勾配降下（PGD）攻撃を用いて、適応的攻撃モデル下での頑健性を評価する。
標的攻撃を適用して敵対的サンプルを生成し、GATベースの分類器と標準的な頑健分類器との間で生成された入力の意味的整合性を比較する。
AUCスコア、0.95のTPRにおけるFPR、および摂動を加えた入力における平均$L_2$歪みを用いて、検出の頑健性と一般化性能を評価する。

実験結果

リサーチクエスチョン

RQ1攻撃者が検出メカニズムを把握した適応的ホワイトボックス攻撃に対しても、検出フレームワークは有効に機能するか？
RQ2さまざまな攻撃設定（ステップ数、ステップサイズなど）を用いたPGD攻撃下で、GATの性能は最先端の検出手法と比べてどうなるか？
RQ3検出フレームワークから導出される生成的モデルは、標準的な頑健分類器と比較して、予測の解釈性をどの程度向上させるか？
RQ4GATベースのモデルを騙すために生成された敵対的サンプルは、標準的な頑健分類器を騙すサンプルと比べて、より意味的な特徴を保持しているか？
RQ5攻撃のハイパーパrameter（例：ステップサイズ、ステップ数）の違いが、提案手法の検出の頑健性に与える影響は何か？

主な発見

提案手法GATは、$L_2$制約付きPGD攻撃下でMNISTにおいて平均$L_2$歪みが5.65に達し、従来の最先端手法（3.68）を上回る。
CIFAR-10では、同じ評価プロトコル下で平均$L_2$歪みが1.5に達し、従来の最先端手法（1.1）を上回る。
PGD攻撃のさまざまな設定下でも、バイナリ分類器$d_1$と$d_2$のAUCスコアはそれぞれ0.92以上、0.95以上を維持し、強い頑健性を示している。
生成的検出は統合検出および最先端手法を上回り、特に複合攻撃や高い摂動限界下で顕著な優位性を示す。
GATベースの生成的分類器を騙すために生成された敵対的サンプルは、ターゲットクラスの明確な意味的特徴を保持しているが、標準的な頑健分類器を騙すサンプルはしばしば認識不能である。
生成的分類器は、解釈可能で意味的に意味のある特徴を持つ入力に対してのみ高いロジット出力を生成するが、ソフトマックス頑健分類器は意味のない入力に対しても容易に騙される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。