Skip to main content
QUICK REVIEW

[論文レビュー] Can Microcanonical Langevin Dynamics Leverage Mini-Batch Gradient Noise?

Emanuel Sommer, Kangning Diao|arXiv (Cornell University)|Feb 6, 2026
Markov Chains and Monte Carlo Methods被引用数 0
ひとこと要約

この論文はミニバッチ勾配のための確率的ミクロカノニカル Langevin ダイナミクス(SMILE)を分析し、異方性に起因するバイアスを特定し、勾配ノイズの前処理とエネルギー分散に基づくチューニングを提案し、スケーラブルで適応的なSMILEのバリエーションを用いた最先端のベイズニューラルネットワークサンプリングを示す。

ABSTRACT

Scaling inference methods such as Markov chain Monte Carlo to high-dimensional models remains a central challenge in Bayesian deep learning. A promising recent proposal, microcanonical Langevin Monte Carlo, has shown state-of-the-art performance across a wide range of problems. However, its reliance on full-dataset gradients makes it prohibitively expensive for large-scale problems. This paper addresses a fundamental question: Can microcanonical dynamics effectively leverage mini-batch gradient noise? We provide the first systematic study of this problem, establishing a novel continuous-time theoretical analysis of stochastic-gradient microcanonical dynamics. We reveal two critical failure modes: a theoretically derived bias due to anisotropic gradient noise and numerical instabilities in complex high-dimensional posteriors. To tackle these issues, we propose a principled gradient noise preconditioning scheme shown to significantly reduce this bias and develop a novel, energy-variance-based adaptive tuner that automates step size selection and dynamically informs numerical guardrails. The resulting algorithm is a robust and scalable microcanonical Monte Carlo sampler that achieves state-of-the-art performance on challenging high-dimensional inference tasks like Bayesian neural networks. Combined with recent ensemble techniques, our work unlocks a new class of stochastic microcanonical Langevin ensemble (SMILE) samplers for large-scale Bayesian inference.

研究の動機と目的

  • ミニバッチ勾配を微分的に活用して高次元モデルのスケーラブルなベイズ推論を動機付ける。
  • MCLMCにおける各方向性を持つミニバッチ勾配ノイズから生じるバイアスを理論的に特徴づける。
  • バイアスを緩和し堅牢なサンプリングを可能にする勾配ノイズ前処理を提案する。
  • ステップサイズと数値的安定性を制御するエネルギー分散ベースの適応チューナーを開発する。
  • SMILEのバリエーションをベイズニューラルネットワークと大規模アーキテクチャで実証的に検証する。

提案手法

  • 確率的ミクロカノニカル Langevin ダイナミクス(SMILE)を導出し、ミニバッチノイズ下での故障モードを特定する。
  • 局所的ノイズ共分散 L(θ) を用いて勾配を変換し等方性の実質ノイズを達成することで勾配ノイズ前処理を提案する。
  • 対角移動平均ベースの前処理を用いた SMILE-naive の前処理版として pSMILE-naive および pSMILE を導入する。
  • エネルギー誤差 ΔE を Gamma 分布でモデル化してステップサイズを適応的に調整し数値的ガードレールを設定するエネルギー分散ベースの適応チューナーを開発する。
  • オンラインの Gamma 參数推定を指数移動平均で実現し適応制御を可能にする(アルゴリズム 1)。
  • ベイズニューラルネットワークと大規模アーキテクチャで評価し、SGHMCおよび全バッチ MILE と比較する。
Figure 1 : Differences between the Bayesian deep ensemble (BDE) performance of naive (orange) and tuned (blue) SMILE variants and a deep ensemble (DE) baseline for a ResNet-7 (428k parameters) on the CIFAR10 dataset. The x-axis is truncated at -0.01 for readability. For all samplers, we report the b
Figure 1 : Differences between the Bayesian deep ensemble (BDE) performance of naive (orange) and tuned (blue) SMILE variants and a deep ensemble (DE) baseline for a ResNet-7 (428k parameters) on the CIFAR10 dataset. The x-axis is truncated at -0.01 for readability. For all samplers, we report the b

実験結果

リサーチクエスチョン

  • RQ1ミニバッチ勾配ノイズでターゲット後方分布をバイアスすることなく微分的ミクロカノニカル Langevin ダイナミクスを効果的に駆動できるか。
  • RQ2異方性ミニバッチノイズ下で生じるバイアスの仕組みは何か、前処理で正しい定常挙動を回復できるか。
  • RQ3大規模モデルへスケールさせる際に勾配ノイズを含む確率的ミクロカノニカルダイナミクスのステップサイズと数値安定性を適応的に制御できるか。
  • RQ4前処理済み SMILE 法は高次元の BNN で最先端の不確実性量化と予測性能を達成できるか。
  • RQ5Ensemble 変種(MILE/MCMC アンサンブル)は確率的ミクロカノニカルダイナミクスで拡張可能で全バッチ性能に近づけられるか。

主な発見

TargetNoise TypeSMILE-naiveSGLDSGHMCpSMILE-naive
ICG (Baseline: 0.0001 )Isotropic0.003 ± 0.0010.033 ± 0.0060.095 ± 0.0330.006 ± 0.001
ICG (Baseline: 0.0001 )Diagonal0.245 ± 0.0270.184 ± 0.0210.186 ± 0.0200.038 ± 0.008
ICG (Baseline: 0.0001 )Correlated0.502 ± 0.1940.189 ± 0.0290.235 ± 0.0670.055 ± 0.007
ICG (Baseline: 0.0001 )Spatially-varied0.157 ± 0.0100.328 ± 0.0110.331 ± 0.0110.093 ± 0.019
Rosenbrock (Baseline: 0.0003 )Isotropic0.002 ± 0.0010.005 ± 0.0010.004 ± 0.0020.004 ± 0.001
Rosenbrock (Baseline: 0.0003 )Diagonal0.302 ± 0.1110.085 ± 0.0070.160 ± 0.0270.046 ± 0.002
Rosenbrock (Baseline: 0.0003 )Correlated0.265 ± 0.0420.074 ± 0.0070.085 ± 0.0140.070 ± 0.005
Rosenbrock (Baseline: 0.0003 )Spatially-varied0.048 ± 0.0050.079 ± 0.0130.095 ± 0.0130.052 ± 0.005
Funnel (Baseline: 0.004 )Isotropic0.014 ± 0.0050.141 ± 0.0190.128 ± 0.0190.021 ± 0.005
Funnel (Baseline: 0.004 )Diagonal0.283 ± 0.1460.063 ± 0.0170.077 ± 0.0390.042 ± 0.012
Funnel (Baseline: 0.004 )Correlated0.453 ± 0.2310.147 ± 0.0340.138 ± 0.0390.004 ± 0.002
Funnel (Baseline: 0.004 )Spatially-varied0.023 ± 0.0080.241 ± 0.0430.218 ± 0.0340.012 ± 0.003
  • 異方性ミニバッチ勾配ノイズは連続時間の MCLMC におけるノイズ誘導ドリフトを介して体系的なバイアスを生み出す。
  • 局所的 Objective 共分散 L(θ) を用いた勾配ノイズ前処理は実質ノイズを等方化してバイアスを低減する。
  • pSMILE-naive は解析的ベンチマーク全般で SMILE-naive よりも有意に優れている(異方性ノイズ下)。
  • エネルギー分散ベースのチューニングは大規模ネットワークへのスケーリングを安定化し、追加ノイズ注入なしで堅牢な適応ステップサイズ制御を可能にする。
  • エポック単位のサンプリングと前処理により、pSMILE はベイズニューラルネットワークにおいて全バッチ MILE の性能に匹敵させることができる。
  • CIFAR-10 および Imagenette の大規模実験では、pSMILE が SGHMC および cSGLD と比較して競争力のあるまたは優れた指標(LPPD、精度、F1 など)を達成する。
Figure 2 : Robustness assessment: Perplexity improvement (smaller is better, std. dev. as shaded area) of MCMC sampling over the optimized warmstart across samplers and step sizes for the nanoGPT model with 10.8M parameters on modern-shakespeare .
Figure 2 : Robustness assessment: Perplexity improvement (smaller is better, std. dev. as shaded area) of MCMC sampling over the optimized warmstart across samplers and step sizes for the nanoGPT model with 10.8M parameters on modern-shakespeare .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。