Skip to main content
QUICK REVIEW

[論文レビュー] Detecting Adversarial Samples from Artifacts

Reuben Feinman, Ryan R. Curtin|arXiv (Cornell University)|Mar 1, 2017
Adversarial Robustness in Machine Learning参考文献 17被引用数 376
ひとこと要約

敵対的サンプルの検出のため、最終層特徴空間の密度推定とドロップアウトからのベイズ的不確実性を用いて、2つの特徴量検出器を提案する。これらをロジスティック回帰に組み合わせ、複数の攻撃とデータセットにわたる敵対的入力を検出する。

ABSTRACT

Deep neural networks (DNNs) are powerful nonlinear architectures that are known to be robust to random perturbations of the input. However, these models are vulnerable to adversarial perturbations--small input changes crafted explicitly to fool the model. In this paper, we ask whether a DNN can distinguish adversarial samples from their normal and noisy counterparts. We investigate model confidence on adversarial samples by looking at Bayesian uncertainty estimates, available in dropout neural networks, and by performing density estimation in the subspace of deep features learned by the model. The result is a method for implicit adversarial detection that is oblivious to the attack algorithm. We evaluate this method on a variety of standard datasets including MNIST and CIFAR-10 and show that it generalizes well across different architectures and attacks. Our findings report that 85-93% ROC-AUC can be achieved on a number of standard classification tasks with a negative class that consists of both normal and noisy samples.

研究の動機と目的

  • 攻撃特化の防御を超えて敵対的サンプルを検出する必要性を動機づける。
  • 敵対的摂動のアーティファクトを明らかにする攻撃非依存の2つの特徴を開発する。
  • 密度と不確実性を組み合わせて敵対的入力を検出する簡易な分類器を実証する。
  • 複数のデータセット、アーキテクチャ、攻撃に渡る一般化を評価する。
  • 敵対的摂動が入力をデータ流形から外れ高い不確実性領域へどのように移動させるかを分析する。

提案手法

  • 最後の隠れ層特徴空間でカーネル密度推定を用い、サンプルがクラスマニフォールドからどれだけ離れているかを測定する。
  • ベイズニューラルネットワークのドロップアウトに基づくベイズ的不確実性推定を活用して低信頼領域を識別する。
  • 2つの特徴量入力(不確実性、密度)を計算し、敵対的サンプルと正常/ノイズサンプルを識別するロジスティック回帰検出器を訓練する。
  • FGSM、BIM、JSMA、C&W の複数の攻撃とデータセット(MNIST、CIFAR-10、SVHN)を ROC-AUC 指標で評価する。
  • 尤度ベースの選択によって密度帯域を固定し、検出器訓練前に特徴量へ z-score 正規化を適用する。

実験結果

リサーチクエスチョン

  • RQ1最終層特徴空間のマニフォールドベースの密度推定を用いて、敵対的サンプルを正常サンプルやノイズサンプルと区別できるか。
  • RQ2ドロップアウトで得られるベイズ的不確実性が、密度だけでは捉えられない敵対的入力を明らかにできるか。
  • RQ3密度と不確実性の特徴を組み合わせた場合、様々な攻撃とデータセットに対して単純なロジスティック回帰検出器の性能はどれほどか。
  • RQ4提案された特徴は、攻撃特化の訓練なしでアーキテクチャや攻撃タイプを超えて一般化するか。
  • RQ5MNIST、CIFAR-10、SVHN で敵対的検出の検出性能(ROC-AUC)はどれくらいか。

主な発見

  • 密度推定とベイズ的不確実性を組み合わせた検出器は、攻撃とデータセットを横断して高い ROC-AUC を達成する(例:負クラスに正常およびノイズサンプルを含めた場合、MNIST で最大 92.6%)。
  • 敵対的サンプルは通常の counterpart と比較して密度推定が低下し、不確実性が増加する傾向がある。
  • 不確実性+密度の組み合わせ検出器は、いずれか単独の特徴よりも優れており、特に JSMA、BIM-A、C&W 攻撃で顕著である。
  • MNIST、CIFAR-10、SVHN の実験は、FGSM、BIM、JSMA、C&W 攻撃に対して強力な ROC-AUC の性能を示す。
  • 負クラスに正常とノイズの両方を含めても敵対検出は有効であり、摂動タイプの変化に対する頑健性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。