Skip to main content
QUICK REVIEW

[論文レビュー] The promises and pitfalls of Stochastic Gradient Langevin Dynamics

Nicolas Brosse, Alain Durmus|arXiv (Cornell University)|Nov 25, 2018
Quantum many-body systems被引用数 47
ひとこと要約

本論文は一定のステップサイズを持つSGLDを分析し、その不変分布がデータサイズの増加に伴い事後分布と乖離する可能性を示し、SGLDFP、LMC、SGDとWasserstein距離およびモーメント展開を用いて比較する。

ABSTRACT

Stochastic Gradient Langevin Dynamics (SGLD) has emerged as a key MCMC algorithm for Bayesian learning from large scale datasets. While SGLD with decreasing step sizes converges weakly to the posterior distribution, the algorithm is often used with a constant step size in practice and has demonstrated successes in machine learning tasks. The current practice is to set the step size inversely proportional to $N$ where $N$ is the number of training samples. As $N$ becomes large, we show that the SGLD algorithm has an invariant probability measure which significantly departs from the target posterior and behaves like Stochastic Gradient Descent (SGD). This difference is inherently due to the high variance of the stochastic gradients. Several strategies have been suggested to reduce this effect; among them, SGLD Fixed Point (SGLDFP) uses carefully designed control variates to reduce the variance of the stochastic gradients. We show that SGLDFP gives approximate samples from the posterior distribution, with an accuracy comparable to the Langevin Monte Carlo (LMC) algorithm for a computational cost sublinear in the number of data points. We provide a detailed analysis of the Wasserstein distances between LMC, SGLD, SGLDFP and SGD and explicit expressions of the means and covariance matrices of their invariant distributions. Our findings are supported by limited numerical experiments.

研究の動機と目的

  • 大規模データセット上で拡張可能なベイズ学習のためにSGLDの利用を動機付ける。
  • Nが大きくなるにつれて定数ステップのSGLDが真の事後分布に対してどのように振る舞うかを特徴づける。
  • Wasserstein距離とモーメントを用いてSGLDをSGLDFP、Langevin Monte Carlo (LMC)および SGDと比較する。
  • SGLDが事後分布を近似する場合とそうでない場合について実践的な指針を提供する。

提案手法

  • 標的事後分布を Langevin 拘束の不変分布としてモデル化する。
  • ミニバッチ勾配推定量を用いてLMC、SGLD、SGLDFPを定義するためにEuler離散化を用いる。
  • 勾配のリプシッツ連続性・強凸性・凸性といったUおよびU_iに関する仮定を課し、Wasserstein距離の境界を導く。
  • LMC、SGLDFP、SGLDおよびSGDの周辺法のW2距離とそれぞれの不変分布との間の上界を導出する。
  • 不変分布の平均と共分散の明示的表現を摂動解析(H、G、K行列)を通じて提供する。
  • 合成データとCovertype風データセットを用いた限定的な数値実験で理論的所見を補強する。

実験結果

リサーチクエスチョン

  • RQ1Nが大きくなるにつれてLMC、SGLDFP、SGLD、SGDの不変分布が目標の事後分布πにどれだけ近いか?
  • RQ2定数ステップでこれらのアルゴリズムの周辺分布間のWasserstein距離はどのように発展するか?
  • RQ3コントロール変量(SGLDFP)はデータサイズに対して非線形以下のコストで近似的な事後サンプルを回復できるか?
  • RQ4不変分布の平均と共分散のπとの差はNおよびγとどうスケールするか?
  • RQ5SGLDが事後分布ではなくSGDのように振る舞う条件は何か?

主な発見

  • LMCとSGLDFPの不変分布はNが大きくなるにつれて事後πに近づく傾向があり、SGLDFPのサンプリングコストはNに対して線形以下である。
  • SGLDの不変分布はNが大きくなるにつれてπから距離を保ち、サブサンプリングによる勾配分散の影響でSGDに類似する。
  • Wasserstein境界は収束速度とコストのトレードオフを示し、LMCとSGLDFPはW2でε精度を達成するのにLMCは概ねNに対して線形、SGLDFPはサブ線形のコストを要する。
  • 平均と共分散の展開は、LMCとFPのバイアスおよび共分散がΘ(1/N)である一方、SGLD/SGDのバイアスはΘ(η)であり、η = γNという前提の漸近挙動が示される。
  • 理論的成果はベイズロジスティック回帰と大規模データセットのシミュレーションで示され、勾配分散の挙動と検定データセットの性能差を強調している。
  • SGLDのバイアスを緩和する戦略(例:γとpの調整、コントロール変量の使用)を通じて事後サンプリングへ近づける可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。