Skip to main content
QUICK REVIEW

[论文解读] Automated Variational Inference in Probabilistic Programming

David Wingate, Théophane Weber|arXiv (Cornell University)|Jan 7, 2013
Bayesian Modeling and Causal Inference参考文献 26被引用 72
一句话总结

本文提出了一种用于概率编程的自动化变分推断算法,通过随机梯度优化高效逼近后验分布,而无需解析可解性。通过利用基于轨迹的梯度估计与受强化学习启发的基线自适应机制,该方法在复杂且非共轭模型(如LDA和QMR-DT)中实现了比标准随机梯度下降更快的收敛速度和更低的方差。

ABSTRACT

We present a new algorithm for approximate inference in probabilistic programs, based on a stochastic gradient for variational programs. This method is efficient without restrictions on the probabilistic program; it is particularly practical for distributions which are not analytically tractable, including highly structured distributions that arise in probabilistic programs. We show how to automatically derive mean-field probabilistic programs and optimize them, and demonstrate that our perspective improves inference efficiency over other algorithms.

研究动机与目标

  • 解决在解析解不可行的情况下,对任意概率编程进行高效、自动化的变分推断的挑战。
  • 克服传统坐标上升变分推断的局限性,后者需要手动推导更新方程,且在非共轭或高度结构化的模型中失效。
  • 开发一种通用的、自动的方法,可直接从概率编程中推导并优化均值场变分近似,而无需针对特定模型进行推导。
  • 通过受强化学习启发的随机梯度优化与基线自适应,提升推断效率与收敛速度。
  • 在LDA和QMR-DT等复杂模型中实现可扩展的后验逼近,这些模型因高维性与非共轭性导致标准方法难以奏效。

提出的方法

  • 将概率编程形式化为基于轨迹的生成过程,其中每次执行轨迹对应一系列具有历史依赖分布的基本随机过程(ERPs)。
  • 将变分目标定义为最大化证据下界(ELBO),其等价于最小化变分近似与真实后验之间的KL散度。
  • 通过路径导数与重参数化技术,推导出ELBO的随机梯度估计器,实现对程序中随机节点的梯度计算。
  • 引入一种基线自适应机制(受剧集自然演员-评论家算法启发),以降低梯度方差,提升优化稳定性与收敛速度。
  • 采用在线小批量梯度估计,实现在不重新处理整个数据集的前提下对大规模数据集进行可扩展优化。
  • 将该方法应用于LDA与QMR-DT基准测试,证明其能够自动生成并优化变分程序,而无需人工推导。

实验结果

研究问题

  • RQ1是否可以无需对更新方程进行解析推导,即可将基于随机梯度的变分推断自动应用于任意概率编程?
  • RQ2在复杂模型中,使用学习到的基线进行梯度估计如何影响变分推断的收敛速度与方差?
  • RQ3在LDA与QMR-DT等非共轭模型中,所提方法是否能在收敛性与稳定性方面优于标准随机梯度下降与二阶方法?
  • RQ4自动化变分推断在传统方法失效的大规模数据集与复杂结构化模型中,其可扩展性达到何种程度?
  • RQ5自动推导均值场变分程序是否能产生准确且高效的后验近似,适用于下游推断任务?

主要发现

  • 所提出的自动化变分推断(AVI)方法在LDA与QMR-DT基准测试中,相比标准随机梯度下降,实现了更快的收敛速度与更低的梯度方差。
  • 包含基线自适应的剧集自然演员-评论家(ENAC)算法,即使在与标准随机梯度下降使用相同学习率与梯度归一化的情况下,也显著优于后者。
  • 尽管使用了曲率信息,二阶梯度下降(SOGD)在LDA实验中表现欠佳,甚至出现发散,表明仅靠曲率估计不足以保证稳定,必须辅以方差减少。
  • 结合ENAC梯度的共轭梯度优化比最速下降收敛更快,表明梯度方向的质量是关键因素,而不仅仅是二阶信息。
  • 训练完成后,变分程序可将后验采样成本降至MCMC的几分之一,且采样结果可作为MCMC的热启动,进一步提升效率。
  • 该方法成功实现了在复杂非共轭模型中均值场变分近似的自动推导与优化,消除了对手动推导坐标上升方程的需求。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。