[論文レビュー] On the (Statistical) Detection of Adversarial Examples
論文は敵対的サンプルが正当データと統計的に異なることを示し、カーネルベースの二サンプル検定で検出可能で、拡張アウトライアクラスで入力ごとの検出を提供、MNIST, DREBIN, MicroRNAで評価。
Machine Learning (ML) models are applied in a variety of tasks such as network intrusion detection or Malware classification. Yet, these models are vulnerable to a class of malicious inputs known as adversarial examples. These are slightly perturbed inputs that are classified incorrectly by the ML model. The mitigation of these adversarial inputs remains an open problem. As a step towards understanding adversarial examples, we show that they are not drawn from the same distribution than the original data, and can thus be detected using statistical tests. Using thus knowledge, we introduce a complimentary approach to identify specific inputs that are adversarial. Specifically, we augment our ML model with an additional output, in which the model is trained to classify all adversarial inputs. We evaluate our approach on multiple adversarial example crafting methods (including the fast gradient sign and saliency map methods) with several datasets. The statistical test flags sample sets containing adversarial inputs confidently at sample sizes between 10 and 100 data points. Furthermore, our augmented model either detects adversarial examples as outliers with high accuracy (> 80%) or increases the adversary's cost - the perturbation added - by more than 150%. In this way, we show that statistical properties of adversarial examples are essential to their detection.
研究の動機と目的
- 敵対的サンプルが正当な学習データ分布と統計的に異なることを示す。
- 複数のデータセットと攻撃にわたって敵対的分布を検出する統計的検定(MMDベース)を評価する。
- 個々の敵対的入力を検出するためにアウトライアクラスを追加してモデルを統合防御することを提案する。
- 白箱・黒箱の脅威シナリオ下で提案防御の頑健性を評価する。
提案手法
- ガウスカーネルを用いたMMDによるカーネルベースの二サンプル検定を用いて、敵対的分布と善玉分布をブートストラップされた帰無分布で区別する。
- 訓練分布から抽出したサンプルと敵対的に摂動されたデータの間で最大平均差(MMD)とエネルギー距離(ED)を測定する。
- MNIST、DREBIN(Androidマルウェア)、MicroRNAデータセットに対して、複数の敵対的作成手法(FGSM、JSMA、SVM攻撃、DT攻撃)で検出性能を評価する。
- モデルに追加のアウトライアスクラスを付与し、敵対的入力をこのクラスとして分類するように訓練して、テスト時に入力ごとの検出を可能にする。
- 白箱および黒箱の脅威モデル下での性能を比較し、適応攻撃を含む。
実験結果
リサーチクエスチョン
- RQ1統計的検定は小さなサンプルサイズで敵対的分布をモデルのトレーニング分布と判別できるか?
- RQ2アウトライアスクラスを備えた拡張モデルはテスト時に敵対的入力を確実に検出できるか?
- RQ3提案された防御は適応的/ブラックボックスの攻击者に対してどれくらい頑健か?
- RQ4アウトライアスクラスアプローチを使用した場合、摂動増分や誤分類の検出コストにどのような影響があるか?
主な発見
| Manipulation | Parameters | MMD | ED |
|---|---|---|---|
| 元の | - | 0.105 | 130.85 |
| FGSM | ε=0.07 | 0.281 | 157.904 |
| FGSM | ε=0.275 | 0.603 | 213.967 |
| JSMA | - | 0.14 | 137.63 |
| DT attack | - | 0.1 | 130.71 |
| SVM attack | ε=0.25 | 0.524 | 186.32 |
| Flipped | - | 0.306 | 135.0 |
| Subsampling | 45 pixel | 2.159 | 102.7 |
| Gaussian Blur | 4 pixel | 1.021 | 128.52 |
- カーネルベースの検定(MMDとED)は、ほとんどのケースでサンプルサイズが50入力程度と小さくても敵対的分布を検出できる。
- 二サンプル検定は敵対的入力が存在する場合に帰無仮説を棄却し、善玉サンプルは約95%の確率で善玉仮説を受容する。
- アウトライアスクラスを備えた拡張モデルは2つのデータセットで80%以上の敵対例を検出し、モデルを欺くための摂動コストを150%以上増加させる。
- ブラックボックス/適応攻撃下でも防御は頑健さを維持し、最悪ケースで敵対者の検出精度は60%程度、多くの設定で90%以上を超えることが多い;検出されない敵対的入力はしばしばより大きな摂動を必要とする。
- 一部の攻撃/データセット(例:MNISTのJSMAやMNISTのDT攻撃)では検出は自信度が低く、これらの攻撃者に対して観測される統計的乖離が弱いことと整合する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。