Skip to main content
QUICK REVIEW

[论文解读] Operator Variational Inference

Rajesh Ranganath, Jaan Altosaar|arXiv (Cornell University)|Oct 27, 2016
Gaussian Processes and Bayesian Inference参考文献 2被引用 39
一句话总结

本文提出了算子变分推断(opvi),一种通过使用算子(函数的函数)定义新型变分目标来推广变分推断的框架。通过采用朗之万-斯坦算子,opvi 实现了可扩展的黑箱优化,支持数据子采样,并能处理无需解析密度的灵活变分程序,在图像和混合模型上的后验近似保真度上优于传统的基于 KL 散度的方法。

ABSTRACT

Variational inference is an umbrella term for algorithms which cast Bayesian inference as optimization. Classically, variational inference uses the Kullback-Leibler divergence to define the optimization. Though this divergence has been widely used, the resultant posterior approximation can suffer from undesirable statistical properties. To address this, we reexamine variational inference from its roots as an optimization problem. We use operators, or functions of functions, to design variational objectives. As one example, we design a variational objective with a Langevin-Stein operator. We develop a black box algorithm, operator variational inference (OPVI), for optimizing any operator objective. Importantly, operators enable us to make explicit the statistical and computational tradeoffs for variational inference. We can characterize different properties of variational objectives, such as objectives that admit data subsampling---allowing inference to scale to massive data---as well as objectives that admit variational programs---a rich class of posterior approximations that does not require a tractable density. We illustrate the benefits of OPVI on a mixture model and a generative model of images.

研究动机与目标

  • 通过将变分推断重新思考为基于算子理论的优化问题,解决标准变分推断的统计缺陷,如后验方差低估和退化解。
  • 开发一种使用算子构造变分目标的一般性框架,实现计算效率与统计精度之间的显式权衡。
  • 通过数据子采样实现可扩展推断,并支持丰富、不可 tractably 参数化的后验近似(变分程序),这些在标准 KL 散度框架下不可行。
  • 形式化算子基目标在计算上可处理且适合黑箱优化的条件。
  • 在真实世界模型上,通过对比似然性和重建性能,证明算子基目标(尤其是朗之万-斯坦目标)优于传统 KL 散度。

提出的方法

  • 提出一类通过算子、测试函数和距离函数定义的通用变分目标类,推广了 KL 和得分匹配等分歧度量。
  • 引入朗之万-斯坦算子作为新型变分目标,支持数据子采样并适用于不可 tractably 参数化的变分族。
  • 开发一种黑箱优化算法 opvi,可优化任意算子基目标,无需变分密度的解析梯度。
  • 采用变分程序——基于神经网络的标准随机变量变换——来建模复杂、非交换的后验分布,无需闭式密度表达。
  • 使用有界神经网络作为测试函数 $ f $,以确保算子基目标的收敛性和稳定性。
  • 采用 Adam 优化器,并为变分参数和测试函数 $ f $ 分别设置学习率,实现变分近似与算子目标的联合优化。

实验结果

研究问题

  • RQ1能否通过算子基目标重新定义变分推断,以改善方差估计和后验支持覆盖等统计特性?
  • RQ2算子基目标如何在保持统计保真度的同时,通过数据子采样实现可扩展推断?
  • RQ3算子基目标能否支持灵活、不可 tractably 参数化的变分族(如变分程序),而这些在传统基于 KL 的变分推断中不兼容?
  • RQ4在真实世界模型上,朗之万-斯坦算子是否在预测性能方面优于 KL 散度?
  • RQ5算子基目标在计算上可处理且统计上合理所需的必要条件是什么?

主要发现

  • 使用变分程序的朗之万-斯坦(ls)目标在完成的 MNIST 图像上实现了最高的对数似然(-58.9),优于使用 KL 的平均场高斯(-59.3)和使用 ls 的平均场高斯(-75.3)。
  • 尽管模型参数是使用 KL 训练的,但基于 ls 的推断与变分程序结合实现了更优的重建性能,表明后验近似质量更高。
  • ls 目标支持数据子采样,可在大规模数据集上实现可扩展优化,这是标准 KL 基变分推断所不具备的特性。
  • 变分程序——基于神经网络的变换,无闭式密度表达——可与算子目标有效结合,而传统基于 KL 的变分推断中则难以实现。
  • 算子框架形式化了计算效率与统计精度之间的权衡,使新型变分目标的设计更具原则性。
  • 该框架支持任意算子基目标的黑箱优化,使其在多样模型和推断任务中具有广泛适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。