QUICK REVIEW

[論文レビュー] Fast and Scalable Bayesian Deep Learning by Weight-Perturbation in Adam

Mohammad Emtiyaz Khan, Didrik Nielsen|arXiv (Cornell University)|Jun 13, 2018

Gaussian Processes and Bayesian Inference参考文献 39被引用数 60

ひとこと要約

この論文は、勾配評価中に重みを摂動させることで最小限のコード変更で Adam の中にガウス平均場ベイズ深層学習を実装可能にする natural-gradient variational methods を提示し、不確実性推定の品質を既存の VI 手法と同程度に保ち、探索の利点を生む可能性がある。

ABSTRACT

Uncertainty computation in deep learning is essential to design robust and reliable systems. Variational inference (VI) is a promising approach for such computation, but requires more effort to implement and execute compared to maximum-likelihood methods. In this paper, we propose new natural-gradient algorithms to reduce such efforts for Gaussian mean-field VI. Our algorithms can be implemented within the Adam optimizer by perturbing the network weights during gradient evaluations, and uncertainty estimates can be cheaply obtained by using the vector that adapts the learning rate. This requires lower memory, computation, and implementation effort than existing VI methods, while obtaining uncertainty estimates of comparable quality. Our empirical results confirm this and further suggest that the weight-perturbation in our algorithm could be useful for exploration in reinforcement learning and stochastic optimization.

研究の動機と目的

堅牢な意思決定のための深層学習における不確実性推定の動機づけ。
Adam のような既存の適応オプティマイザと容易に統合できる VI 手法を開発。
大規模なニューラルネットワークにおけるガウス平均場 VI のメモリ・計算・実装の負担を削減。
重みの摂動を通じた不確実性推定を提供し、それが強化学習や確率的最適化における探索の支援にも役立つ。

提案手法

Gaussian mean-field VI のためのnatural-gradient variational inference (NGVI) を提案。
勾配評価中に重みを摂動させることで Adam に最小限の変更で実装可能であることを示す（Vadam）。
NGVI の近似として VON (Variational Online-Newton) および VOGN (Variational Online Gauss-Newton) の更新を導出し、オンライン Hessian 情報を実現。
勾配の大きさをヘッセ行列の代理として用いる RMSprop に似た実用的な置換として Vprop（Variational RMSprop）を導入。
自然モーメントを自然パラメータ空間で加えることにより Adam に似た更新を生む Variational Adam (Vadam) を開発。
VO(Variational Optimization) 設定で VI を捉え、対応する更新を導出することで Variational AdaGrad (VadaGrad) に拡張。

実験結果

リサーチクエスチョン

RQ1Gaussian mean-field モデルの変分推論を、Adam を用いた MLE と同様の単純さと効率で実装できるか。
RQ2勾配評価中の重量摂動は、従来の VI よりも低いメモリと計算コストで信頼できる不確実性推定を生み出すか。
RQ3提案された近似（VON、VOGN、Vprop、Vadam、VadaGrad）は、標準的なディープラーニングのコードベース内での安定性と実用性の点でどう比較されるか。
RQ4得られる不確実性推定を用いて、強化学習や確率的最適化の探索を改善できるか。

主な発見

重みの摂動を Adam 内で用いた不確実性推定は、既存の VI 手法と同程度の品質である。
提案された近似は、従来の VI アプローチよりも低いメモリ、計算、および実装負荷で VI を実現可能にする。
Vadam は自然モーメントを取り入れた Adam ライクな更新を提供し、標準のオプティマイザ慣行と整合するため、既存のコードベースへの統合を促進する。
Vprop は重み摺動と不確実性を伴う分散を持つ、RMSprop ライクな実用的手法を提供する。
GM ベースの近似（VOGN、Vprop）はミニバッチサイズに応じた予測可能なバイアスを持ち、精度と効率のトレードオフを知らせる。
経験的結果は、重みの摂動が強化学習や確率的最適化の探索を支援する可能性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。