Skip to main content
QUICK REVIEW

[論文レビュー] The Limitations of Model Uncertainty in Adversarial Settings

Kathrin Grosse, David Pfaff|arXiv (Cornell University)|Dec 6, 2018
Adversarial Robustness in Machine Learning参考文献 16被引用数 24
ひとこと要約

本稿では、ベイジアンモデルにおける高い信頼性と低い不確実性を達成する adversarial examples を生成する手法を提案し、そのような不確実性測定値が adversarial 入力を検出するのには信頼できないことを示している。ガウス過程分類器(GPC)をサーロウとして用い、視覚的に良性入力に類似したがベイジアンニューラルネットワークで誤分類される High-Confidence, Low-Uncertainty(HCLU)例を生成することで、不確実性を用いた防御メカニズムに深刻な限界があることが明らかになった。

ABSTRACT

Machine learning models are vulnerable to adversarial examples: minor perturbations to input samples intended to deliberately cause misclassification. While an obvious security threat, adversarial examples yield as well insights about the applied model itself. We investigate adversarial examples in the context of Bayesian neural network's (BNN's) uncertainty measures. As these measures are highly non-smooth, we use a smooth Gaussian process classifier (GPC) as substitute. We show that both confidence and uncertainty can be unsuspicious even if the output is wrong. Intriguingly, we find subtle differences in the features influencing uncertainty and confidence for most tasks.

研究の動機と目的

  • 機械学習モデルにおけるベイジアン不確実性測定値が、adversarial examples を信頼性高く検出できるかどうかを調査すること。
  • 不確実性に基づく防御から検出を回避できるように、高い信頼性と低い不確実性を維持する adversarial examples を生成する手法を開発すること。
  • Gaussian Process Classifier(GPC)、DNN、BNN などの異なるモデル間での、そのような adversarial examples の転送性を評価すること。
  • ベイジアンモデルにおける信頼性と不確実性に影響を与える特徴の違いを比較し、潜在的な不整合を特定すること。
  • 高不確実性が adversarial 入力を示すという仮定を疑問視し、逆にそのような状況が生じ得ることを示すこと。

提案手法

  • 著者らは、高い信頼性(>0.95)と低い不確実性(≤ 初期値)を満たす条件下で、最小の L2 パーティクルを最適化することにより、新しい adversarial example のタイプである High-Confidence, Low-Uncertainty(HCLU)を定義した。
  • ベイジアンニューラルネットワーク(BNN)の不確実性が滑らかでないため、最適化問題を解くために滑らかなガウス過程分類器(GPC)をサーロウとして用いた。
  • Python の L-BFGS-B 最適化ルーチンを用い、再現性を確保するため adversarial robustness toolbox を活用して攻撃を実装した。
  • 本手法はスパム、MNIST、Fashion-MNIST データセットに適用され、GPC のスケーラビリティを確保するため、小規模なデータと二値分類タスクに焦点を当てた。
  • HCLU 例の転送性は、GPC、DNN、BNN モデル上で HCLU 入力をテストすることで評価され、攻撃の耐性と一般化能力が検証された。
  • 信頼性と不確実性は、25 インターバルに分けたヒストグラム・ビニングを用いて分析され、正しく分類された例と誤って分類された例を比較した。

実験結果

リサーチクエスチョン

  • RQ1高い信頼性と低い不確実性を維持する adversarial examples を生成可能か? これにより、ベイジアン不確実性測定値による検出を回避できるか?
  • RQ2BNN らのようなベイジアンモデルは、HCLU 例を低不確実性と高信頼性のもとで誤分類するが、これは不確実性が adversarial 入力で増加するはずだとする期待に反する。
  • RQ3ベイジアンモデルにおいて、信頼性と不確実性に影響を与える特徴はどのように異なるか?
  • RQ4HCLU adversarial examples は、非ベイジアン DNN を含む、さまざまなモデル間でどれほど転送可能か?
  • RQ5良性データ、標準的な adversarial 攻撃(例:Carlini & Wagner)と HCLU 例の間で、不確実性と信頼性の挙動はどのように異なるか?

主な発見

  • HCLU adversarial examples は最小限の L2 パーティクルで成功裏に生成され、GPC サーロウモデルでは 100% の成功率を達成した。
  • スパムデータセットでは、HCLU パーティクルの平均 L2 ノルムは 0.008 ± 0.006 であった。一方、Fashion-MNIST(1 対 9)では 0.194 ± 0.036 であった。
  • BNN は HCLU 例を高い信頼性(平均信頼度 ~0.948)と低い不確実性で誤分類したが、これは adversarial 入力で不確実性が上昇するはずという期待に反する。
  • HCLU 例では、誤分類されたサンプルでは BNN が低不確実性を示し、正しく分類されたサンプルでは低信頼度を示すという、標準的な adversarial 攻撃とは逆のパターンが観察された。
  • HCLU 例の転送性は非常に高く、すべてのモデルで HCLU 入力に対して顕著な精度低下が観察された。特に MNIST 3 対 8 と Fashion-MNIST 5 対 7 の DNN はやや高い耐性を示した。
  • 本研究では、ベイジアンモデルにおける信頼性と不確実性に影響を与える特徴にわずかな差異が存在することを発見した。これは、これらの測定値が完全に一致しておらず、防御に信頼できないことを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。