Skip to main content
QUICK REVIEW

[論文レビュー] Idealised Bayesian Neural Networks Cannot Have Adversarial Examples: Theoretical and Empirical Study.

Yarin Gal, Lewis Smith|arXiv (Cornell University)|Jun 2, 2018
Adversarial Robustness in Machine Learning参考文献 13被引用数 2
ひとこと要約

この論文は、2つの十分条件を満たす理想化されたベイジアンニューラルネットワーク(BNN)が、悪意ある例を有しないことを理論的に証明し、悪意ある例がモデルの不完全性に起因することを示している。HMC推論を用いた近似理想化BNNでは、エピステミック的不確実性がデータ多様体の密度と相関していることが示され、MCドロップアウトが防御として機能する理由が説明され、近似BNNにおける新たな攻撃・防御のダイナミクスが明らかになった。

ABSTRACT

We prove, under two sufficient conditions, that idealised models can have no adversarial examples. We discuss which idealised models satisfy our conditions, and show that idealised Bayesian neural networks (BNNs) satisfy these. We continue by studying near-idealised BNNs using HMC inference, demonstrating the theoretical ideas in practice. We experiment with HMC on synthetic data derived from MNIST for which we know the ground-truth image density, showing that near-perfect epistemic uncertainty correlates to density under image manifold, and that adversarial images lie off the manifold in our setting. This suggests why MC dropout, which can be seen as performing approximate inference, has been observed to be an effective defence against adversarial examples in practice; We highlight failure-cases of non-idealised BNNs relying on dropout, suggesting a new attack for dropout models and a new defence as well. Lastly, we demonstrate the defence on a cats-vs-dogs image classification task with a VGG13 variant.

研究の動機と目的

  • ベイジアンニューラルネットワークが悪意ある例に対して本質的に頑健であるための理論的条件を確立すること。
  • 近似推論手法としてのMCドロップアウトが、なぜ実験的に悪意ある例の防御に成功したかを調査すること。
  • ドロップアウトに依存する非理想化BNNにおける失敗モードを特定し、新たな攻撃および防御戦略を導くこと。
  • 合成MNIST由来のデータを用いたHMC推論を用いて理論的知見を検証すること。

提案手法

  • 理論的分析により、2つの十分条件を満たす理想化されたBNNが悪意ある例を持たないことを証明した。
  • HMC推論を用いて近似理想化BNNにおける事後分布を近似し、理論的主張の実証的検証を可能にした。
  • MNIST多様体から合成データを生成し、画像密度と真の分布が既知の制御された環境を構築した。
  • エピステミック的不確実性を測定し、データ密度と相関させることで、悪意ある例が真のデータ多様体から外れているかどうかを評価した。
  • 非理想化BNNにおける失敗モードに基づき、ドロップアウトベースのモデル向けの新たな攻撃を提案するとともに、それに応じた防御機構を提示した。
  • 提案された防御は、VGG13の変種を用いたネコ対イヌの画像分類タスクで評価された。

実験結果

リサーチクエスチョン

  • RQ1どのような理論的条件下で、ベイジアンニューラルネットワークが悪意ある例に対して明示的に自由であると言えるか?
  • RQ2近似理想化BNNにおけるエピステミック的不確実性は、元のデータ多様体の密度とどのように関係しているか?
  • RQ3MCドロップアウトが近似推論手法であるにもかかわらず、なぜ悪意ある例の防御として効果的なのか?
  • RQ4ドロップアウトを用いた非理想化BNNで現れる失敗モードは何か? それらはどのように悪用可能か、あるいは緩和可能か?
  • RQ5理想化モデルから得られた理論的知見は、現実世界のモデルに実用的な防御メカニズムとして転用可能か?

主な発見

  • 2つの十分条件を満たす理想化されたベイジアンニューラルネットワークは、悪意ある例が存在しないことが明示的に証明された。
  • HMC推論を用いて訓練された近似理想化BNNでは、高いエピステミック的不確実性がデータ密度の高い領域と相関しており、悪意ある例が真のデータ多様体から外れていることが示唆された。
  • 合成MNIST由来の設定において、悪意ある例は一貫して画像多様体の外側に位置しており、分布のギャップを悪用しているという仮説を支持した。
  • MCドロップアウトの防御効果は、理想化されたBNNのエピステミック的不確実性を近似できる能力に起因していることが説明された。
  • 非理想化BNNの不完全性に基づき、ドロップアウトベースのモデル向けの新たな攻撃が同定され、新たな脆弱性が示された。
  • 提案された防御機構は、VGG13の変種を用いたネコ対イヌ分類タスクで標準的なドロップアウトを上回り、実用的応用の有効性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。