QUICK REVIEW

[論文レビュー] SLANG: Fast Structured Covariance Approximations for Bayesian Deep Learning with Natural Gradient

Aaron Mishkin, Frederik Künstner|arXiv (Cornell University)|Nov 11, 2018

Gaussian Processes and Bayesian Inference被引用数 27

ひとこと要約

SLANGは、ベイジアンディープラーニングにおける変分推論のための高速で確率的かつ低ランクの近似自然勾配法を提案する。構造的共分散行列（対角行列＋低ランク成分）を、ネットワークの対数尤度のバックプロパゲーション勾配のみを用いて推定する。平均場法に比べて収束が速く、不確実性推定がより正確であり、標準ベンチマークにおいて最先端の手法と同等の性能を発揮する。

ABSTRACT

Uncertainty estimation in large deep-learning models is a computationally challenging task, where it is difficult to form even a Gaussian approximation to the posterior distribution. In such situations, existing methods usually resort to a diagonal approximation of the covariance matrix despite, the fact that these matrices are known to result in poor uncertainty estimates. To address this issue, we propose a new stochastic, low-rank, approximate natural-gradient (SLANG) method for variational inference in large, deep models. Our method estimates a "diagonal plus low-rank" structure based solely on back-propagated gradients of the network log-likelihood. This requires strictly less gradient computations than methods that compute the gradient of the whole variational objective. Empirical evaluations on standard benchmarks confirm that SLANG enables faster and more accurate estimation of uncertainty than mean-field methods, and performs comparably to state-of-the-art methods.

研究の動機と目的

大規模なディープニューラルネットワークにおける効率的で正確な不確実性推定の課題に取り組むこと。
対角共分散近似による不確実性を低く見積もるという平均場変分推論の限界を克服すること。
低メモリおよび計算コストを維持しながら、深層モデルにスケーリング可能な手法を開発すること。
全変分目的関数の勾配を必要とせずに、構造的共分散近似（対角＋低ランク）を可能にすること。
計算コストを削減しつつ、最先端の手法と同等の性能を達成すること。

提案手法

SLANGは、ネットワーク対数尤度のバックプロパゲーション勾配のみを活用して、変分パラメータを最適化する近似自然勾配アルゴリズムを用いる。
対角成分と低ランク成分からなる構造的共分散行列を推定し、勾配統計から直接学習する。
全変分目的関数の勾配を計算せず、再パラメトリゼーションに基づく手法と比較して計算コストを低減する。
ミニバッチ勾配を用いて段階的に共分散近似を構築する、確率的で反復的な最適化スキームを採用する。
適応的学習率とモーメンタムを用い、ハイパーパramータはベイズ最適化と交差検証を用いて調整する。
モンテカルロサンプリングを用いた推論を伴い、フルバッチまたはミニバッチ学習を用いたベイジアンニューラルネットワークに適用する。

実験結果

リサーチクエスチョン

RQ1低ランク＋対角共分散構造は、平均場近似と比較して、深層ベイジアンニューラルネットワークにおける不確実性推定を改善できるか？
RQ2対数尤度勾配のみを用いることで、大規模なディープモデルにおける自然勾配最適化を計算的に効率化できるか？
RQ3標準ベンチマークにおいて、SLANGは平均場法および最先端手法に比べて収束が速く、より良い不確実性推定を達成できるか？
RQ4最小限のメモリおよび計算コストで、深層ネットワークに効果的にスケーリングできるか？
RQ5低ランク次元やハイパーパramータ設定の変更に伴い、SLANGの性能はどのように変化するか？

主な発見

USPSデータセット上で、分散の低減推定の問題を顕著に改善し、平均場法に比べて不確実性推定が著しく向上した。
MNISTおよびUCI回帰ベンチマークにおいて、最先端の手法と同等の性能を達成し、収束が速い。
MNISTではL=32のSLANGが、テスト精度97.8%および負の対数尤度0.138を達成し、平均場ベースラインを上回った。
UCIデータセットでは、Bayes-by-Backpropおよび平均場VIよりも常に低いテストNLLを達成し、一部のケースで最大15%の改善を示した。
すべてのデータセットにおいて最良の学習率はα=β=0.02154435であった。これはハイパーパramータ選択に対するロバストネスを示している。
全変分目的関数の勾配を回避するため、再パラメトリゼーションに基づく手法よりも少ない勾配計算回数で済んだ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。