QUICK REVIEW

[論文レビュー] Dropout Inference in Bayesian Neural Networks with Alpha-divergences

Yingzhen Li, Yarin Gal|arXiv (Cornell University)|Mar 8, 2017

Adversarial Robustness in Machine Learning参考文献 39被引用数 107

ひとこと要約

この論文は alpha-divergence の目的を再パラメータ化し、 dropout ベースのベイジアンニューラルネット推論を実現。これは不確実性推定と敵対的な例に対する頑健性を改善する。

ABSTRACT

To obtain uncertainty estimates with real-world Bayesian deep learning models, practical inference approximations are needed. Dropout variational inference (VI) for example has been used for machine vision and medical applications, but VI can severely underestimates model uncertainty. Alpha-divergences are alternative divergences to VI's KL objective, which are able to avoid VI's uncertainty underestimation. But these are hard to use in practice: existing techniques can only use Gaussian approximating distributions, and require existing models to be changed radically, thus are of limited use for practitioners. We propose a re-parametrisation of the alpha-divergence objectives, deriving a simple inference technique which, together with dropout, can be easily implemented with existing models by simply changing the loss of the model. We demonstrate improved uncertainty estimates and accuracy compared to VI in dropout networks. We study our model's epistemic uncertainty far away from the data using adversarial images, showing that these can be distinguished from non-adversarial images by examining our model's uncertainty.

研究の動機と目的

BNN におけるより良い不確実性推定の必要性を動機づける。
標準 dropout と既存アーキテクチャで機能する実用的な alpha-divergence ベースの推論を提案する。
タスクを横断して、標準 dropout VI よりも不確実性だけでなく予測精度の改善を示す。
データから遠い場所でのエピステミック不確実性と敵対的な例との関係を評価する。

提案手法

モデルアーキテクチャを変更することなく dropout ベースの近似推論を可能にするために BB-α エネルギーを再定式化する。
キャビティ分布を用いた再パラメータ化を用いて dropout に適合する扱いやすい目的関数を導出する（equation 7）。
MC 目的関数 L̃α(q) を KL[q||p0] + const − (1/α) ∑_n log-sum-exp[−α l(y_n, f^ω_k(x_n))]（K サンプル）として定義する。
dropout に特化して、複数の確率的フォワードパスをサンプリングし、実用的な損失を得る（分類には equation 9、回帰には equation 10）。
出力を α 乗にして MC サンプルを平均することで、具体的な dropout-BB-α 目的を提供する。
α が予測的尤度の最適化（α≈1）と変分自由エネルギー（α→0）のトレードオフを制御することを示す。

実験結果

リサーチクエスチョン

RQ1alpha-divergence ベースの dropout 推論は標準 dropout VI よりもより良い校正済みの不確実性を提供するか？
RQ2異なる α 値はベンチマークデータセットで回帰と分類の性能にどのような影響を与えるか？
RQ3dropout-BB-α はエピステミック不確実性を介して頑健性を改善し、敵対的入力を検出できるか？
RQ4VI や他のベイズ法と比較した場合、実用的なトレーニング時間への影響はどうか？
RQ5このアプローチはCNNやより大きなアーキテクチャへどのように一般化するか？

主な発見

非 VI α 値（例: α=0.5 や α=1）は回帰で予測対数尤度を改善し、RMSE が VI と比べて競合的であることが多い。
MNIST 分類では α=0.5（ヘリング値）は最良のテスト RMSE を示し、全結合ネットワークの log-likelihood で EP 値と同等を得る；VI（α=0）はこれらの指標で劣後。
MNIST の CNN では VI-α（α=0）は α=0.5 に近い性能を示し、しばしば α=1 に近い log-likelihood を示し、精度が改善。
MC dropout をシンプルな損失再定式化で可能にし、訓練時間は VI と競合的。
敵対的な MNIST 画像では不確実性が高まり、エピステミック不確実性を用いて非敵対的サンプルと分離可能。
実験はこの手法が Gaussian VI のベースラインを上回り、回帰タスクでは HMC やスパース GP と競合的であることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。