QUICK REVIEW

[論文レビュー] Adversarial Phenomenon in the Eyes of Bayesian Deep Learning

Ambrish Rawat, Martin Wistuba|arXiv (Cornell University)|Nov 22, 2017

Adversarial Robustness in Machine Learning参考文献 28被引用数 27

ひとこと要約

本稿では、深層ニューラルネットワークにおけるベイジアン不確実性を通じて敵対的ロバストネスを調査し、ベイジアンニューラルネットワーク（BNN）が敵対的例に対して予測不確実性が高まり、ランダムなガウスノイズと同様の挙動を示すことを提案している。これにより、敵対的検出に有効である。著者らはモンテカルロサンプリングを用いてBNNにFGSMを適応させ、相互情報量や予測エントロピーといった不確実性指標が、複数のBNNバージョンにおいて敵対的入力を信頼性高く特定できることを示した。

ABSTRACT

Deep Learning models are vulnerable to adversarial examples, i.e.\ images obtained via deliberate imperceptible perturbations, such that the model misclassifies them with high confidence. However, class confidence by itself is an incomplete picture of uncertainty. We therefore use principled Bayesian methods to capture model uncertainty in prediction for observing adversarial misclassification. We provide an extensive study with different Bayesian neural networks attacked in both white-box and black-box setups. The behaviour of the networks for noise, attacks and clean test data is compared. We observe that Bayesian neural networks are uncertain in their predictions for adversarial perturbations, a behaviour similar to the one observed for random Gaussian perturbations. Thus, we conclude that Bayesian neural networks can be considered for detecting adversarial examples.

研究の動機と目的

ベイジアンニューラルネットワーク（BNN）が、クリーンデータと比較して敵対的例に対して不確実性が高まるかどうかを調査すること。
原理的で不確実性の定量化を用いて、BNNが敵対的摂動とランダムノイズを区別できるかどうかを評価すること。
例えばPBP、MCドロップアウト、VIなどの複数のベイジアン推論手法が、不確実性指標を用いて敵対的攻撃を検出する効果を評価すること。
白ボックス攻撃とブラックボックス攻撃の両方において、BNNの不確実性行動を比較すること。
不確実性に基づく検出が、安全が求められる応用分野における信頼できる防御機構としての可能性を検討すること。

提案手法

パラメータ不確実性下での予測を推定するために、モンテカルロサンプリングを用いて、ベイジアンニューラルネットワークにFast Gradient Sign Method（FGSM）を適応させた。
Probabilistic Backpropagation（PBP）、Monte Carlo Dropout（MC-Dropout）、Variational Inference（VI）、およびマトリックス変量ガウス事後分布（MVN）の4つの異なるベイジアン推論手法を採用した。
3つの指標である不確実性内の相互情報量（MUMMI）、予測エントロピー、およびばらつき比を用いてモデルの不確実性を定量化した。
MNIST上で、摂動強度ε = 0.5のFGSMを用いて敵対的例を生成し、3種類のランダムノイズ（一様、ピクセル単位のガウス、多変量正規）と比較した。
クリーンなテストデータ、敵対的例、ノイズ集合の各々について、クラス信頼度と不確実性指標の散布図を可視化して不確実性のフットプリントを描いた。
各入力について、事後予測分布を近似し、不確実性推定値を計算するためにモンテカルロサンプリングを用いた。

実験結果

リサーチクエスチョン

RQ1ベイジアンニューラルネットワークは、クリーンなテスト画像と比較して、敵対的例に対して顕著に高い不確実性を示すか？
RQ2敵対的摂動におけるBNNの不確実性行動は、ランダムガウスノイズにおけるものとどのように比較されるか？
RQ3PBP や MC-Dropout などの異なるベイジアン推論手法が、敵対的攻撃において一貫した不確実性パターンを示すか？
RQ4予測エントロピーやばらつき比といった不確実性指標は、敵対的入力とクリーンまたはノイズ入りデータを効果的に区別できるか？
RQ5敵対的攻撃下でのBNNの不確実性フットプリントは、学習分布から大きく離れたデータポイントのそれと類似しているか？

主な発見

ベイジアンニューラルネットワークは、MUMMI、予測エントロピー、ばらつき比で測定した不確実性が、特に攻撃強度が高まるにつれて顕著に上昇し、敵対的例で顕著に高まる。
敵対的例の不確実性フットプリントは、ランダムガウスノイズと密接に類似しており、BNNが両者を訓練データから離れた分布外の入力として処理していることを示している。
PBPは、敵対的入力およびノイズ入り入力の両方で不確実性が急激に上昇するが、MC-Dropoutなどの他のモデルは、MVNおよびピクセル単位のノイズで一貫性のない挙動を示すことがあり、これはアーキテクチャ的要因および正規化効果によるものと推測される。
敵対的例とランダムノイズの間の不確実性パターンの類似性は、BNNが敵対的入力を学習データから距離のある分布外の入力として認識しているという仮説を支持している。
テストしたすべてのBNNバージョンが、FGSM摂動強度が高くなるにつれて不確実性が明確に増加する傾向を示しており、不確実性が検出信号として堅牢であることが確認された。
結果から、BNNにおける不確実性の定量化は、複数の不確実性指標を組み合わせることで、敵対的例検出の信頼できるメカニズムとして機能することが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。