QUICK REVIEW

[論文レビュー] Deterministic Variational Inference for Robust Bayesian Neural Networks

Anqi Wu, Sebastian Nowozin|arXiv (Cornell University)|Oct 9, 2018

Adversarial Robustness in Machine Learning被引用数 66

ひとこと要約

この論文は、勾配の分散を除去するための決定論的モーメント近似と、Empirical Bayesを用いた事前分布の自動選択により、頑健で効率的なベイジアンニューラルネットワークのための決定論的変分推論（DVI）を導入する。DVIは、特に非定常分散回帰において、確率的変分推論よりも優れた予測性能を達成し、UCIデータセット全体でテスト尤度の向上が一貫して得られる。

ABSTRACT

Bayesian neural networks (BNNs) hold great promise as a flexible and principled solution to deal with uncertainty when learning from finite data. Among approaches to realize probabilistic inference in deep neural networks, variational Bayes (VB) is theoretically grounded, generally applicable, and computationally efficient. With wide recognition of potential advantages, why is it that variational Bayes has seen very limited practical use for BNNs in real applications? We argue that variational inference in neural networks is fragile: successful implementations require careful initialization and tuning of prior variances, as well as controlling the variance of Monte Carlo gradient estimates. We provide two innovations that aim to turn VB into a robust inference tool for Bayesian neural networks: first, we introduce a novel deterministic method to approximate moments in neural networks, eliminating gradient variance; second, we introduce a hierarchical prior for parameters and a novel Empirical Bayes procedure for automatically selecting prior variances. Combining these two innovations, the resulting method is highly efficient and robust. On the application of heteroscedastic regression we demonstrate good predictive performance over alternative approaches.

研究の動機と目的

変分推論における勾配分散の高さと事前分布の選択に対する感受性によるベイジアンニューラルネットワークの脆さを解消すること。
モンテカルロサンプルの分散を排除するため、ReLUおよびヘヴィサイドネットワークを介した不確実な活性化を伝搬する決定論的手法を開発すること。
階層的事前分布を用いて、データに適応した重み事前分布の分散の自動的・データ駆動的選択を可能にするEmpirical Bayes手順を導入すること。
組み合わせた手法が、既存の確率的変分推論手法よりも優れた予測性能と頑健性を達成することを示すこと。
事前分布の選択を自動化し、訓練を安定化させることで、熟練したチューニングなしにベイジアンニューラルネットワークの実用的導入を可能にすること。

提案手法

重みに不確実性があるニューラルネットワークにおける期待活性化を計算するための決定論的近似を提案し、確率的モンテカルロサンプルの代わりに閉形式の期待値を用いる。
ガウス分布による重み入力の下でReLUおよびヘヴィサイド活性化の一次モーメントと二次モーメントの正確な解析的表現を導出し、分散のないバックプロパゲーションを可能にする。
重み分散に逆ガンマハイパーパラメータを用いた階層的事前分布構造を導入し、Empirical Bayesを用いてデータ駆動的で事前分布スケールの推定を可能にする。
共役事前分布を用いて、事前分布分散の閉形式の後退更新式を導出し、トレーニング中に自動チューニングを可能にする。
同一の線形層に対して別々の分散パラメータを有する、等分散および非等分散回帰モデルにこの手法を適用する。
計算複雑性を低減しながら表現力を維持するため、重みの因子化ガウス変分族を用いる。

実験結果

リサーチクエスチョン

RQ1確率的モンテカルロサンプルに依存せずに、ベイジアンニューラルネットワークの変分推論における勾配分散を排除することは可能か？
RQ2手動チューニングなしに、ニューラルネットワーク重みの最適な事前分布分散を自動で学習することは可能か？
RQ3活性化モーメントの決定論的近似は、ベイジアンニューラルネットワークのトレーニングをより安定かつ正確にするか？
RQ4予測性能と収束性の観点から、提案手法は確率的変分推論と比べてどのように異なるか？
RQ5事前分布選択のためのEmpirical Bayesアプローチは、多様な回帰タスクにおいて一貫して手動による事前分布チューニングを上回るか？

主な発見

DVIは、S=10のサンプルを用いた確率的変分推論（MCVI）を常に上回り、いくつかのUCIデータセットで1データポイントあたり最大0.35 natsの高いテスト尤度を達成する。
対角DVIバージョン（dDVI）は、性能の大部分を維持しながら計算効率を確保しており、精度を犠牲にすることなく実用的である。
非等分散モデルは、より複雑であるにもかかわらず、DVIでトレーニングされた場合、等分散モデルを一貫して上回り、過学習の兆候は観察されない。
事前分布選択のためのEmpirical Bayes手法は、手動チューニングと比較して一貫して同等または優れた性能を達成し、テストしたすべてのデータセットで改善が見られる。
この手法は頑健である：熟練の介入やハイパーパrameterチューニングを必要とせず、複数回のランダムなトレイン・テスト分割において一貫して収束する。
決定論的モーメント近似により、勾配推定の確率的要素が排除され、トレーニングが安定化し、より高速かつ信頼性の高い収束が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。