Skip to main content
QUICK REVIEW

[论文解读] Stochastic Gradient MCMC with Repulsive Forces

Víctor Gallego, David Rı́os Insua|arXiv (Cornell University)|Nov 30, 2018
Markov Chains and Monte Carlo Methods参考文献 24被引用 26
一句话总结

本文提出 SGLD+R,一种新颖的随机梯度 MCMC 方法,通过在粒子之间引入排斥力,统一了随机梯度马尔可夫链蒙特卡洛(SG-MCMC)与斯蒂尔变分梯度下降(SVGD)。通过结合粒子排斥与噪声注入,该方法提升了探索能力,避免了粒子坍缩,并确保收敛至真实后验分布——在合成数据和真实世界贝叶斯神经网络任务中,通过提升有效样本量和预测性能得到验证。

ABSTRACT

We propose a unifying view of two different Bayesian inference algorithms, Stochastic Gradient Markov Chain Monte Carlo (SG-MCMC) and Stein Variational Gradient Descent (SVGD), leading to improved and efficient novel sampling schemes. We show that SVGD combined with a noise term can be framed as a multiple chain SG-MCMC method. Instead of treating each parallel chain independently from others, our proposed algorithm implements a repulsive force between particles, avoiding collapse and facilitating a better exploration of the parameter space. We also show how the addition of this noise term is necessary to obtain a valid SG-MCMC sampler, a significant difference with SVGD. Experiments with both synthetic distributions and real datasets illustrate the benefits of the proposed scheme.

研究动机与目标

  • 解决标准 SG-MCMC 和 SVGD 在探索复杂后验分布时存在的粒子坍缩与混合性差的问题。
  • 将 SG-MCMC 与 SVGD 统一于单一框架中,保留 SG-MCMC 的可扩展性,同时引入 SVGD 的粒子排斥机制。
  • 通过添加噪声项确保收敛至真实后验分布,从而与缺乏此特性的纯 SVGD 区分开来。
  • 开发一种可扩展、高效的采样方案,适用于大规模深度模型和高维参数空间中的贝叶斯推断。
  • 在合成数据和真实数据集上,证明该方法在有效样本量和预测准确性方面优于标准 SGLD 和 SVGD。

提出的方法

  • 提出一种混合采样器 SGLD+R,通过在 SGLD 基础上引入基于核函数的 SVGD 梯度,实现粒子间的排斥力。
  • 在粒子更新规则中引入噪声项,以确保过程满足细致平衡条件并收敛至真实后验分布,这与缺乏该特性的 SVGD 不同。
  • 将算法建模为多链 SG-MCMC 方法,其中粒子通过排斥核相互作用,提升探索能力并减少退化现象。
  • 利用福克-普朗克方程对 SGLD+R 的动力学进行形式化分析,并与 SVGD 对比,表明仅 SGLD+R 满足有效 SG-MCMC 采样器的条件。
  • 采用 RBF 核实现排斥力,并使用小批量梯度以保证在大规模数据集中的可扩展性。
  • 在贝叶斯神经网络中应用该采样器,采用标准训练协议,每次在预 burn-in 阶段后每 10 次迭代收集一次样本,每轮使用 20 个粒子。

实验结果

研究问题

  • RQ1SG-MCMC 与 SVGD 的结合能否产生一种更高效、更准确的大规模贝叶斯推断采样方法?
  • RQ2在 SG-MCMC 中引入粒子间排斥力如何影响混合时间与探索能力?
  • RQ3为何在该类混合方法中,噪声项的引入对于确保收敛至真实后验分布至关重要?
  • RQ4该方法能否在真实世界数据集上实现优于标准 SGLD 和 SVGD 的有效样本量与预测准确性?
  • RQ5在高维参数空间中,粒子排斥对粒子退化与后验近似质量有何影响?

主要发现

  • 在 MoE 分布中,SGLD+R 将 X 的期望值估计误差相比 SGLD 减少 62%(0.14 vs. 0.39)。
  • 在 MoG 分布中,SGLD+R 将 E[X] 的误差从 1.42 降低至 1.19,显示出更高的准确性。
  • 在波士顿房价数据集上,SGLD+R 将测试对数似然从 -2.551 提升至 -2.575,均方根误差从 2.392 降低至 2.295。
  • 在海军数据集上,SGLD+R 在对数似然(3.428 vs. 3.379)和 RMSE(0.008 vs. 0.008)方面均取得显著提升,且方差明显降低。
  • 在蛋白质数据集上,SGLD+R 将对数似然从 -2.991 提升至 -2.987,均方根误差从 4.810 降低至 4.794,各项指标均呈现一致提升。
  • 即使在训练后半程禁用排斥力,该方法仍保持高性能,表明排斥力在早期探索阶段最为关键。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。