QUICK REVIEW

[論文レビュー] Predictive Uncertainty Estimation via Prior Networks

Andrey Malinin, Mark Gales|arXiv (Cornell University)|Feb 28, 2018

Adversarial Robustness in Machine Learning参考文献 28被引用数 357

ひとこと要約

この論文はPrior Networks (PNs) を導入し、データとモデルの不確実性とは別に分布不確実性を明示的にモデリングし、OOD検出と誤分類検出を改善。MNISTと CIFAR-10 に Dirichlet Prior Networks (DPNs) を適用。

ABSTRACT

Estimating how uncertain an AI system is in its predictions is important to improve the safety of such systems. Uncertainty in predictive can result from uncertainty in model parameters, irreducible data uncertainty and uncertainty due to distributional mismatch between the test and training data distributions. Different actions might be taken depending on the source of the uncertainty so it is important to be able to distinguish between them. Recently, baseline tasks and metrics have been defined and several practical methods to estimate uncertainty developed. These methods, however, attempt to model uncertainty due to distributional mismatch either implicitly through model uncertainty or as data uncertainty. This work proposes a new framework for modeling predictive uncertainty called Prior Networks (PNs) which explicitly models distributional uncertainty. PNs do this by parameterizing a prior distribution over predictive distributions. This work focuses on uncertainty for classification and evaluates PNs on the tasks of identifying out-of-distribution (OOD) samples and detecting misclassification on the MNIST dataset, where they are found to outperform previous methods. Experiments on synthetic and MNIST and CIFAR-10 data show that unlike previous non-Bayesian methods PNs are able to distinguish between data and distributional uncertainty.

研究の動機と目的

モデル (エピステミック)、データ (アレアトリック)、分布的 (データセットシフト) の予測不確実性の3つの源を分離する必要性を動機づける。
分布不確実性を分離するために予測分布の分布をパラメータ化する Prior Networks を提案。
分類タスクの Dirichlet Prior Networks (DPNs) を開発・評価し、OOD検出と誤分類検出に焦点。
PN フレームワークから導出される不確実性指標を提供し、ベイズ/マルチモデルのベースラインと比較。

提案手法

予測分布 p(mu|x, theta) の分布を明示的にモデリングする Prior Networks (PNs) を導入。
Dirichlet 分布を用いて p(mu|x; theta) をパラメータ化し、alpha = f(x; theta) とし、内の確信ある領域はシャープな角、外部入力にはフラットな事前分布を可能にする。
インドメインデータに対してシャープ Dirichlet 目標へKL発散を最小化し、アウトオブドメインデータにはフラット Dirichlet 目標へ最小化するマルチタスク目的で DPN を訓練 (eq. 12)。
デルタ関数ターゲットを避けるため、分布内ターゲットを正則化・滑らかにする (eq. 15)、教師-生徒平滑化を任意に使用。
PN階層の異なる周辺化（データ、分布、モデル不確実性）を議論し、これらの周辺化から不確実性指標（エントロピー、相互情報量）を導出。
合成データ、MNIST、CIFAR-10 で PN/Dirichlet PN を評価し、標準 DNNs および MC-Dropout アンサンブルと比較。

実験結果

リサーチクエスチョン

RQ1Prior Networks は分類タスクでデータ不確実性、分布不確実性、モデル不確実性を別個にモデリングできるか？
RQ2Dirichlet Prior Networks は DNN や MC-Dropout アンサンブルなどのベースラインと比較して OOD検出と誤分類検出を改善するか？
RQ3PN フレームワーク下でどの不確実性指標（エントロピー、相互情報量、微分エントロピー）が異なる源の不確実性を最も良く反映するか？
RQ4MNIST と CIFAR-10 で PN ベースの手法は、ノイズ/拡張シナリオや現実の様々な OOD データセットを含めどのように性能を発揮するか？

主な発見

Dirichlet Prior Networks は MNIST/CIFAR-10 のOOD検出において MC-Dropout および標準 DNN より分布不確実性推定をより正確に行う。
PNs は MNIST/CIFAR-10 で誤分類検出のベースラインを上回る。
Dirichlet prior の微分エントロピーは、クラスの区別が弱いまたはノイズが多い場合にOOD検出に特に有効。
PN フレームワークから導出される不確実性指標はテスト時に解析的に計算でき、アンサンブルより計算コストを抑えられる。
合成データでは、クラスのオーバーラップが高いときに分布内と分布外を区別する PN の能力が改善し、標準エントロピー指標とは異なる。
エントロピーと最大事後確率は依然として有力な単純指標であり、微分エントロピーは特定の OOD シナリオ（特にクラスがより明確でない場合）で利点を提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。