QUICK REVIEW

[論文レビュー] On the Validity of Bayesian Neural Networks for Uncertainty Estimation

John Mitros, Brian Mac Namee|arXiv (Cornell University)|Dec 3, 2019

Adversarial Robustness in Machine Learning参考文献 21被引用数 23

ひとこと要約

この論文は、不確実性推定のためのベイジアンニューラルネットワーク（BNNs）と標準的な点推定ディープニューラルネットワーク（DNNs）を比較し、BNNsがより良好にキャリブレーションされた予測を提供し、分布外（OOD）サンプルをより優れた能力で検出できることを示している。複数のアーキテクチャとデータセットを用いて、BNNsは一貫してキャリブレーション誤差を低減し、分布内と分布外の予測における対称的KLダイバージェンスを増加させ、不確実性の定量化が向上していることを示している。

ABSTRACT

Deep neural networks (DNN) are versatile parametric models utilised successfully in a diverse number of tasks and domains. However, they have limitations---particularly from their lack of robustness and over-sensitivity to out of distribution samples. Bayesian Neural Networks, due to their formulation under the Bayesian framework, provide a principled approach to building neural networks that address these limitations. This paper describes a study that empirically evaluates and compares Bayesian Neural Networks to their equivalent point estimate Deep Neural Networks to quantify the predictive uncertainty induced by their parameters, as well as their performance in view of this uncertainty. In this study, we evaluated and compared three point estimate deep neural networks against comparable Bayesian neural network alternatives using two well-known benchmark image classification datasets (CIFAR-10 and SVHN).

研究の動機と目的

ベイジアンニューラルネットワーク（BNNs）が、標準的な点推定ディープニューラルネットワーク（DNNs）よりも信頼性が高く、キャリブレーションされた不確実性推定を提供するかどうかを調査すること。
DNNsとBNNsが不確実性定量化を用いて、分布外（OoD）サンプルを検出できる能力を評価すること。
標準的およびベイジアンディープラーニングフレームワークにおける、モデルの精度とキャリブレーション性能のトレードオフを評価すること。
モンテカルロドロップアウト、SWAG、変分推論といった、異なるBNN近似手法の不確実性推定およびロバストネスにおける性能を比較すること。

提案手法

SGDとソフトマックス出力を用いて標準DNNを訓練し、点推定分類を実行。この際、信頼度スコアは正規化された指数関数的ロジットから導出される。
3つのベイジアンニューラルネットワーク手法を適用：モンテカルロドロップアウト（MC Dropout）、SWAG（アンサンブルベースの近似事後分布）、および重み分布を用いた変分推論。
予測の信頼度のキャリブレーションを測定するために、期待キャリブレーション誤差（ECE）と信頼性図を用いた。
分布内と分布外のサンプルの信頼度分布間の対称的KLダイバージェンスと分布エントロピーを用いて、OOD検出性能を評価した。
CIFAR-10、SVHN、FashionMNISTのデータセットを2つの5クラスサブセットに分割し、学習用の分布内（in-distribution）とテスト用の分布外（out-of-distribution）シナリオを模擬した。
クラス信頼度分布のエントロピーを不確実性の指標として用い、分布内と分布外のセット間の分布を対称的KLダイバージェンスで比較した。

実験結果

リサーチクエスチョン

RQ1ベイジアンニューラルネットワーク（BNNs）は、標準的な点推定ディープニューラルネットワーク（DNNs）よりも、より良好にキャリブレーションされた不確実性推定を提供するか？
RQ2ベイジアンニューラルネットワークは、より高い予測不確実性を示すことにより、分布外（OoD）サンプルをより効果的に同定できるか？
RQ3モンテカルロドロップアウト、SWAG、変分推論といった、異なるベイジアン近似手法は、キャリブレーションおよびOOD検出においてどのように比較されるか？
RQ4DNNsとBNNsにおいて、モデルの精度とキャリブレーション性能の間にトレードオフが存在するか？
RQ5モデルの複雑さは、点推定DNNsにおけるキャリブレーション誤差の増加と相関するか？また、BNNsはこれを緩和できるか？

主な発見

点推定DNNsは高いキャリブレーション誤差を示す（例：CIFAR-10におけるVGG16-SGDではECEが0.0677）。これは、高い精度を示す一方で、信頼度のキャリブレーションが悪いことを示している。
ベイジアンニューラルネットワーク（BNNs）は期待キャリブレーション誤差（ECE）を顕著に低減する。WideResNet28x10-SWAGはCIFAR-10でECEが0.0098を達成し、全モデルの中で最低となった。
PreResNet164-MC Dropout や WideResNet28x10-SWAG といったBNNsは、分布内と分布外の信頼度分布間で高い対称的KLダイバージェンス（例：SVHNでは6.27）を示し、OOD検出能力の向上を示している。
VGG16-SGD や VGG16-MC Dropout は、それぞれSVHNで対称的KLダイバージェンス5.64および6.27を達成し、一部のケースでは多くのBNNバリアントを上回ったが、全体的にはBNNsがより一貫した性能を示した。
SWAGベースのBNNs（例：WideResNet28x10-SWAG）は、最低のECE（0.0098）と高いOOD検出スコア（SVHNでは3.65）を達成し、キャリブレーションと不確実性定量化の両面で優れた性能を示した。
非DNNベースのディープガウス過程は、悪いキャリブレーション（ECE = 0.1418）と弱いOOD検出（CIFAR-10では対称的KL = 0.80）を示し、ベイジアン推論を伴うディープニューラルアーキテクチャの優位性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。