QUICK REVIEW

[論文レビュー] Training Ensembles to Detect Adversarial Examples

Alexander Bagnall, Răzvan Bunescu|arXiv (Cornell University)|Dec 11, 2017

Adversarial Robustness in Machine Learning参考文献 6被引用数 30

ひとこと要約

本稿では、白ボックス、ブラックボックス、オビリオン攻撃のあらゆる設定で効果的に adversarial examples を検出できる、計算的に効率的な新規アンサンブル手法を提案する。この手法は、クリーンデータでは高い精度を維持しながら、ランダムに摂動を加えた入力に対して意図的に合意しない複数のニューラルネットワークモデルを訓練することで実現される。CIFAR-10 に対する C&W 攻撃において 68.1% の検出率を達成し、攻撃に特化した防御を必要とせずに、最先端の攻撃に対して強い耐性を示している。

ABSTRACT

We propose a new ensemble method for detecting and classifying adversarial examples generated by state-of-the-art attacks, including DeepFool and C&W. Our method works by training the members of an ensemble to have low classification error on random benign examples while simultaneously minimizing agreement on examples outside the training distribution. We evaluate on both MNIST and CIFAR-10, against oblivious and both white- and black-box adversaries.

研究の動機と目的

さまざまな脅威モデルに特化しない、計算コストが低い adversarial examples 検出手法の開発。
特にランダム摂動のような分布外の入力に対してアンサンブルの不一致を促進することで、adversarial detection の性能を向上させること。
クリーンデータにおける分類精度を維持しながら、精度と不一致の共同最適化によって adversarial 入力への感受性を高めること。
MNIST および CIFAR-10 における C&W、DeepFool、FGSM、および基本的反復法などの最先端攻撃に対して、この手法の耐性を評価すること。
防御の目的に応じて損失関数の重み Je と Ja を変化させた場合の、分類精度と検出率のトレードオフを調査すること。

提案手法

本手法は、N 個のニューラルネットワークモデルを、クリーンデータ用の標準的な交差エントロピー損失（Je）と、ランダムに摂動を加えた入力での合意を罰する不一致正則化項（Ja）からなる複合損失関数を用いて同時に訓練する。
ランダム摂動 ε は [-η, η) から一様に抽出され、攻撃に類似した訓練例が生成される。η は摂動の L∞-ノルムを制御する。
不一致損失 Ja は、すべてのモデルペアのソフトマックス出力ベクトルの平均内積として計算され、摂動を加えた入力に対して多様な予測を促進する。
総損失は J = Je + λJa で表され、λ はクリーン精度と不一致のトレードオフを制御する。ミニバッチ確率的勾配降下法で最適化される。
テスト時、入力は順位投票により分類される：アンサンブルメンバー全体で順位の合計が最小となるラベルが選ばれる。ただし、アンサンブルの不一致が閾値 τ を超える場合は、入力を adversarial とマークする。
閾値 τ は、クリーン検証データにおける誤検出（偽陽性）を最小限に抑えつつ、adversarial 例の検出を最大化するように調整される。

実験結果

リサーチクエスチョン

RQ1攻撃の事前知識がなくても、オビリオン、ブラックボックス、白ボックスのあらゆる設定でアンサンブル手法が adversarial examples を検出可能か？
RQ2クリーン精度と摂動入力での不一致の共同最適化は、C&W や DeepFool といった強力な攻撃に対する検出性能にどのように影響するか？
RQ3損失関数の重み Je と Ja を異なる値に設定した場合、分類精度と検出率のトレードオフはどのように変化するか？
RQ4クリーン精度とアンサンブルの合意を同時に狙う攻撃に対して、この手法は依然として有効か？
RQ5ランダムノイズに対する感受性と adversarial 例に対する感受性について、この手法は未防御モデルと比べてどのように異なるか？

主な発見

アンサンブル手法は、CIFAR-10 における C&W 攻撃から生成された adversarial examples に対して 68.1% の検出率を達成し、未防御モデルを上回った。
κ=250 の C&W 攻撃に対しては、検出率がわずか 7.0% にとどまり、分類精度も 9.6% にとどまった。これは、この強力な攻撃に対しては限定的な成功にとどまることを示している。
DeepFool 攻撃は CIFAR-10 で 42.6% の検出率を達成したが、平均で 3.3 の高い歪度を示しており、検出を回避するにはあまり効果的でないことが示唆された。
λ=0.27 の白ボックス設定下で、基本的反復攻撃は 26.4% の分類精度と 27.1% の検出率を示し、誤分類と検出の間のトレードオフが顕在化した。
本手法は、η=0.1 および η=0.02 のノイズに対して感受性を高めた一方で、受け入れられたノイズ付きの例では高い分類精度を維持しており、良性の摂動に対して耐性があることが示された。
ブラックボックス設定でも、MNIST における FGS 攻撃で 70.8% の高い検出率を維持しながら、クリーンデータの精度を高く保った。これは、攻撃タイプに一般化できる能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。