QUICK REVIEW

[论文解读] Automatic Variational Inference in Stan

Alp Kucukelbir, Rajesh Ranganath|arXiv (Cornell University)|Jun 10, 2015

Gaussian Processes and Bayesian Inference参考文献 12被引用 71

一句话总结

本文提出了自动微分变分推断（ADVI），这是一种在Stan中自动进行变分推断的方法，仅需概率模型和数据。通过将潜变量变换到实数空间，使用均场高斯变分族，并结合自动微分与随机优化，ADVI实现了在各类模型上的可扩展贝叶斯推断，在250,000张图像等大规模数据集上相比MCMC实现了数量级的速度提升。

ABSTRACT

Variational inference is a scalable technique for approximate Bayesian inference. Deriving variational inference algorithms requires tedious model-specific calculations; this makes it difficult to automate. We propose an automatic variational inference algorithm, automatic differentiation variational inference (ADVI). The user only provides a Bayesian model and a dataset; nothing else. We make no conjugacy assumptions and support a broad class of models. The algorithm automatically determines an appropriate variational family and optimizes the variational objective. We implement ADVI in Stan (code available now), a probabilistic programming framework. We compare ADVI to MCMC sampling across hierarchical generalized linear models, nonconjugate matrix factorization, and a mixture model. We train the mixture model on a quarter million images. With ADVI we can use variational inference on any model we write in Stan.

研究动机与目标

在概率编程框架中自动化变分推断，消除对模型特定变分族与目标函数推导的需求。
支持广泛的可微概率模型，包括非共轭与层次化模型，而无需共轭性假设。
通过整合随机变分推断与自动微分，实现在大规模数据集上的可扩展推断。
在Stan中提供即插即用的推断解决方案，允许用户对用Stan语言编写的任意模型应用变分推断。
在性能上与MCMC相当，但速度提升数量级，尤其在超大规模数据集上表现显著。

提出的方法

使用单调变换（如对正变量使用对数变换）将潜变量转换到实数空间，从而可使用标准多变量正态变分族。
在变换后的空间中使用均场高斯近似，这在原始参数空间中诱导出非高斯近似。
利用自动微分计算变分下界（ELBO）相对于变分参数的梯度，从而实现高效优化。
应用带有小批量的随机优化以扩展至大规模数据集，并使用缩放因子校正ELBO中的子采样偏差。
将该方法集成到Stan的概率编程框架中，使用户能够用Stan语言编写模型，并自动应用ADVI而无需额外实现。
使用重参数化梯度与黑箱变分推断技术，高效优化ELBO，而无需解析推导。

实验结果

研究问题

RQ1是否可以在通用概率编程框架（如Stan）中完全自动化变分推断，而无需针对特定模型进行推导？
RQ2自动微分与随机优化是否能够实现在大规模数据集（如250,000张图像）上的可扩展贝叶斯推断，而这些数据集对MCMC而言不可行？
RQ3所提出的自动变分推断方法是否在准确率上与MCMC相当，同时显著更快？
RQ4该方法是否能够无需共轭性假设，处理广泛的模型类别，包括非共轭与层次化模型？
RQ5ADVI在速度与预测准确率方面与Stan的默认MCMC采样器（NUTS）相比表现如何？

主要发现

在包含1,000张图像的层次化逻辑回归模型上，ADVI相比NUTS（Stan的默认MCMC采样器）实现了数量级的速度提升。
在250,000张图像的非共轭高斯混合模型上，ADVI在两小时内生成了有效的后验近似，而标准MCMC在此任务上不可行。
在1,000张图像的数据集上，ADVI在保留预测似然性方面优于NUTS，表明其在更快速度下仍具备良好的模型拟合能力。
该方法成功支持了多种模型，包括层次化广义线性模型、非共轭矩阵分解与高斯混合模型，且无需针对模型进行特定修改。
结合子采样的随机变分推断使ADVI能够扩展至大规模数据集，在保持准确率的同时显著降低计算时间。
ADVI已成功集成至Stan 2.7及更高版本，为任意Stan模型提供无缝、自动化的推断选项。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。