QUICK REVIEW

[論文レビュー] A Variational Analysis of Stochastic Gradient Algorithms

Stephan Mandt, Matthew D. Hoffman|arXiv (Cornell University)|Feb 8, 2016

Stochastic Gradient Optimization Techniques参考文献 20被引用数 58

ひとこと要約

本稿では、KL発散の最小化により、SGDの定常分布を真の事後分布に一致させることで、定数学習率を用いた確率的勾配降下法（SGD）を変分推論手法として提案する。SGDを多次元オーナイズの過程としてモデル化することで、事後分布と一致する最適な学習率および前処理行列を導出でき、効率的な近似ベイズ推論およびハイパーパrameter最適化を可能にする。

ABSTRACT

Stochastic Gradient Descent (SGD) is an important algorithm in machine learning. With constant learning rates, it is a stochastic process that, after an initial phase of convergence, generates samples from a stationary distribution. We show that SGD with constant rates can be effectively used as an approximate posterior inference algorithm for probabilistic modeling. Specifically, we show how to adjust the tuning parameters of SGD such as to match the resulting stationary distribution to the posterior. This analysis rests on interpreting SGD as a continuous-time stochastic process and then minimizing the Kullback-Leibler divergence between its stationary distribution and the target posterior. (This is in the spirit of variational inference.) In more detail, we model SGD as a multivariate Ornstein-Uhlenbeck process and then use properties of this process to derive the optimal parameters. This theoretical framework also connects SGD to modern scalable inference algorithms; we analyze the recently proposed stochastic gradient Fisher scoring under this perspective. We demonstrate that SGD with properly chosen constant rates gives a new way to optimize hyperparameters in probabilistic models.

研究の動機と目的

定数学習率を用いた確率的勾配降下法（SGD）を実用的な近似ベイズ推論手法として再定式化すること。
SGDの定常分布と真の事後分布の間のカルバック・ライブラー（KL）発散を最小化すること。
SGDの最適なチューニングパrameter（学習率、ミニバッチサイズ、前処理行列）を、事後分布に一致させるために導出すること。
オーナイズの過程の枠組みを用いて、確率的勾配フィッシャー・スコア（SGFS）の理論的裏付けを提供すること。
定数学習率を用いた1回のSGD実行で、同時に事後分布の推論とハイパーパrameter最適化を実行可能にする手法を提供すること。

提案手法

SGDを連続時間における多次元オーナイズ・ウーレンバック（OU）過程としてモデル化し、その定常分布を解析的に特徴付ける。
OU過程の性質を用いて、定常分布と目的の事後分布とのKL発散を閉形式で計算する。
KL発散の最小化により、最適な学習率および前処理行列を導出し、それらを最適解におけるヘッセ行列とノイズ共分散行列に関連付ける。
この枠組みを用いて、確率的勾配フィッシャー・スコア（SGFS）の分析と正当化を行い、その前処理行列が本変分的枠組み下で最適であることを示す。
SGFSにおける自由なノイズパラメータの基準を導入し、数値的安定性を向上させるとともに、対角前処理行列近似の影響を分析する。
定数SGDが、同時に事後分布からのサンプリングとハイパーパrameter最適化を実行可能であることを実証し、正規事前分布を用いたベイズ多項ロジスティック回帰の応用例で示す。

実験結果

リサーチクエスチョン

RQ1定数学習率を用いた確率的勾配降下法は、有効な近似ベイズ推論手法として使用可能か？
RQ2学習率、ミニバッチサイズ、および前処理行列の最適値は何か？これらは、SGDの定常分布と真の事後分布とのKL発散を最小化するためのものである。
RQ3オーナイズ・ウーレンバック過程によるSGDの近似は、定常分布およびKL発散の解析的計算をどのように可能にするか？
RQ4提案された変分的枠組み下で、確率的勾配フィッシャー・スコア（SGFS）で用いられる前処理行列は最適か？
RQ5定数SGDを用いて、ベイズモデルにおいて同時に事後分布の推論とハイパーパrameter最適化を実行可能か？

主な発見

適切なパラメータを用いた定数SGDの定常分布は、真の事後分布をよく近似でき、SGDによる変分推論が可能になる。
最適な学習率は、ノイズ共分散行列のトレースの逆数に比例する。これは、適応フィルタリングにおける安定性と性能の原則と整合する。
SGDの最適な前処理行列は、ノイズ共分散行列の逆行列に一致する。これにより、SGFS手法の正当化と一般化がなされる。
本フレームワークにより、定常分布と事後分布の間のKL発散を閉形式で表現でき、ハイパーパラメータの解析的最適化が可能になる。
本手法により、1回のSGD実行で事後分布のサンプリングとハイパーパラメータ最適化を同時に実行可能であることが示された。実証例として、正規事前分布を用いたベイズ多項ロジスティック回帰が提示された。
理論的分析により、AdaGrad、RMSProp、および古典的フィッシャー・スコアが、本提案変分的枠組み下で異なる仮定のもとで特殊ケースとして現れることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。