QUICK REVIEW

[論文レビュー] Noisy Natural Gradient as Variational Inference

Guodong Zhang, Shengyang Sun|arXiv (Cornell University)|Dec 6, 2017

Machine Learning and Algorithms参考文献 38被引用数 28

ひとこと要約

この論文は、ベイジアンニューラルネットワークにおける変分推論手法としてのノイズありネイチャラルグラデントを導入し、最適化における適応的重みノイズが変分事後分布におけるネイチャラルグラデントを暗黙的に実行することでELBOを最大化することを示している。ノイズありK-FACおよびAdamの変種を用いて、フルコバリアンスで行列変量ガウス事後分布の効率的な学習が可能となり、ハミルトニアンモンテカルロと類似した予測分散を達成するとともに、アクティブラーニングおよび強化学習における探索の改善が図られる。

ABSTRACT

Variational Bayesian neural nets combine the flexibility of deep learning with Bayesian uncertainty estimation. Unfortunately, there is a tradeoff between cheap but simple variational families (e.g.~fully factorized) or expensive and complicated inference procedures. We show that natural gradient ascent with adaptive weight noise implicitly fits a variational posterior to maximize the evidence lower bound (ELBO). This insight allows us to train full-covariance, fully factorized, or matrix-variate Gaussian variational posteriors using noisy versions of natural gradient, Adam, and K-FAC, respectively, making it possible to scale up to modern-size ConvNets. On standard regression benchmarks, our noisy K-FAC algorithm makes better predictions and matches Hamiltonian Monte Carlo's predictive variances better than existing methods. Its improved uncertainty estimates lead to more efficient exploration in active learning, and intrinsic motivation for reinforcement learning.

研究の動機と目的

ネイチャラルグラデント最適化とベイジアンニューラルネットワークの変分推論を結びつけること。
変分事後分布の近似における計算コストと表現力のトレードオフを解消すること。
高価な推論手順を伴わずに、フルコバリアンスおよび行列変量ガウス事後分布のスケーラブルで効率的な適合法を開発すること。
アクティブラーニングや強化学習における内発的動機付けを含む下流タスクの不確実性推定を改善すること。

提案手法

最適化における適応的重みノイズを、正確なフィッシャー情報行列を用いて変分事後分布におけるネイチャラルグラデントとして再解釈する。
重み更新とフィッシャー行列推定の両方を含む統一された証拠下限（ELBO）を導出する。
行列変量および完全に要因分解されたガウス事後分布の学習に効率的なアルゴリズムとして、ノイズありK-FACおよびノイズありAdamを提案する。
ガウス分布のためのオッパー＝アルシャンブー勾配推定器を用いて、ELBOの事後分布パラメータに関する勾配を計算する。
再パラメータライゼーショントリックとパスワイズ微分を活用して、変分事後分布の微分可能な学習を可能にする。
相関のある重みノイズを組み合わせたクロネッカー分解された曲率近似を活用して、現代のConvNetsにスケーリング可能にする。

実験結果

リサーチクエスチョン

RQ1適応的重みノイズを用いたネイチャラルグラデント最適化は、ベイジアンニューラルネットワークの事後分布における変分推論として解釈可能か？
RQ2高価な推論手順を伴わず、フルコバリアンスおよび行列変量ガウス事後分布を効率的に学習できるか？
RQ3ノイズありネイチャラルグラデント手法は、標準ベンチマークでハミルトニアンモンテカルロの予測不確実性を再現できるか？
RQ4改善された不確実性推定は、アクティブラーニングおよび強化学習におけるより効率的な探索をもたらすか？
RQ5Adam や K-FAC といった標準的な最適化アルゴリズムは、ノイズ注入によって変分推論を実行可能に拡張できるか？

主な発見

ノイズありK-FACは、ハミルトニアンモンテカルロと比較してより強く相関する予測分散を達成し、ボストン住宅データセットでピアソン相関係数0.92を示した。
NNG-MVG および NNG-BlkTri は、HMCの予測分散を最もよく再現したが、NNG-BlkTri はより柔軟な事後分布のおかげでわずかに優れた性能を示した。
アクティブラーニングでは、NNG-MVG_A はランダム選択（NNG-MVG_R）およびPBP_A や NNG-FFG_A よりも多くのデータセットで低いテストRMSEを達成した。
内発的動機付けを伴う強化学習では、NNG-MVG にダイナミクスネットワークの事後分布を置き換えることで、3つの連続制御タスクで探索効率が著しく向上した。
ガウスノイズベースラインは同じタスクで学習に失敗したが、NNG-MVG を用いたVIMEは、ベースラインおよびベイズ・バイ・バックプロパゲーションを用いた元のVIME形式を上回った。
本手法により、相関のあるノイズを伴うK-FACに類似した曲率近似を用いて、フルコバリアンス事後分布の学習がGPUに適したスケーラブルな方法で可能となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。