[論文レビュー] Stochastic Gradient Descent as Approximate Bayesian Inference
論文は定常学習率を用いる SGD を確率過程として再定義し、その定常分布がベイズ事後分布を近似できることを示す。これを実現する最適な SGD ハイパーパラメータを導出し、モーメント、前条件付け、 SGD ベースの MCMC へ拡張する。
Stochastic Gradient Descent with a constant learning rate (constant SGD) simulates a Markov chain with a stationary distribution. With this perspective, we derive several new results. (1) We show that constant SGD can be used as an approximate Bayesian posterior inference algorithm. Specifically, we show how to adjust the tuning parameters of constant SGD to best match the stationary distribution to a posterior, minimizing the Kullback-Leibler divergence between these two distributions. (2) We demonstrate that constant SGD gives rise to a new variational EM algorithm that optimizes hyperparameters in complex probabilistic models. (3) We also propose SGD with momentum for sampling and show how to adjust the damping coefficient accordingly. (4) We analyze MCMC algorithms. For Langevin Dynamics and Stochastic Gradient Fisher Scoring, we quantify the approximation errors due to finite learning rates. Finally (5), we use the stochastic process perspective to give a short proof of why Polyak averaging is optimal. Based on this idea, we propose a scalable approximate MCMC algorithm, the Averaged Stochastic Gradient Sampler.
研究の動機と目的
- 定常 SGD を近似後方分布サンプラーとして確率的に解釈することを提供する。
- 後方分布への KL 発散を最小化するような最適な SGD ハイパーパラメータ(学習率と前条件付け)を導出する。
- モーメントと前条件付けが近似推論のための定常分布に与える影響を示す。
- OU過程フレームワークを用いて変分 EM およびスケーラブルな MCMC の観点を構築する。
- 反復平均化と確率的勾配 MCMC アルゴリズムへの影響を分析する。
提案手法
- 定常学習率を持つ SGD を局所最適解の周りで多変量 Ornstein-Uhlenbeck過程としてモデル化する。
- 勾配ノイズをガウス性、局所損失を二次形式と仮定して解析可能な定常分布を得る。
- 定常分布とガウス posterior との KL 発散を最小化して最適な SGD 設定を導出する。
- 前条件付け行列と対角変種へ拡張し、後方分布の一致を改善する。
- モーメントを持つ SGD を OU フレームワーク内の スケールされた共分散変換として近似推論に用いる。
- 定常 SGD ベースの後方分布を BBVI と比較し、変分 EM 視点から超パラメータ最適化を分析する。
実験結果
リサーチクエスチョン
- RQ1定常 SGD を調整してパラメータに対する近似ベイズ後方分布を得ることができるか。
- RQ2学習率と前条件付けは posterior への KL 発散を最小化するようにどのように選択すべきか。
- RQ3モーメントが定常分布に及ぼす影響と近似サンプリングへの利用はどうなるか。
- RQ4OU過程フレームワーク下でのSGLD, SGFS等の確率的勾配 MCMC 法は SGD とどう関係し、それらの近似誤差はどれくらいか。
- RQ5このフレームワーク内で反復平均化は最適なサンプリング特性を提供できるか。
主な発見
- 定常 SGD の定常分布はガウス分布であり、後方分布を近似できる;KL 発散が最適なハイパーパラメータを導く。
- 定理1は KL 最適性の最適なスカラー学習率を与える: epsilon* = 2S/N · D / Tr(BB^T).
- 定理2 は定常分布を後方へ一致させる最適な全前条件付け H* = (2S/N)(BB^T)^{-1} を示す;対角変種も特徴づけられている。
- モーメントは定常共分散をスケールするが形状は保持され、近似サンプリングを可能にする。
- SG-MCMC 法では OU過程の見方が前条件付けを最適と正当化し、有限学習率の誤差を明確にする;反復平均化はほぼ最適なサンプラーを与え得るがデータパスの線形コストを意味する。
- 特定の仮定の下で、反復平均化はデータ1回のパスごとに厳密に1つの事実上独立なサンプルを生み出せる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。