[论文解读] Automatic Variational Inference in Stan
本文提出了自动微分变分推断(ADVI),这是一种在Stan中自动进行变分推断的方法,仅需概率模型和数据。通过将潜变量变换到实数空间,使用均场高斯变分族,并结合自动微分与随机优化,ADVI实现了在各类模型上的可扩展贝叶斯推断,在250,000张图像等大规模数据集上相比MCMC实现了数量级的速度提升。
Variational inference is a scalable technique for approximate Bayesian inference. Deriving variational inference algorithms requires tedious model-specific calculations; this makes it difficult to automate. We propose an automatic variational inference algorithm, automatic differentiation variational inference (ADVI). The user only provides a Bayesian model and a dataset; nothing else. We make no conjugacy assumptions and support a broad class of models. The algorithm automatically determines an appropriate variational family and optimizes the variational objective. We implement ADVI in Stan (code available now), a probabilistic programming framework. We compare ADVI to MCMC sampling across hierarchical generalized linear models, nonconjugate matrix factorization, and a mixture model. We train the mixture model on a quarter million images. With ADVI we can use variational inference on any model we write in Stan.
研究动机与目标
- 在概率编程框架中自动化变分推断,消除对模型特定变分族与目标函数推导的需求。
- 支持广泛的可微概率模型,包括非共轭与层次化模型,而无需共轭性假设。
- 通过整合随机变分推断与自动微分,实现在大规模数据集上的可扩展推断。
- 在Stan中提供即插即用的推断解决方案,允许用户对用Stan语言编写的任意模型应用变分推断。
- 在性能上与MCMC相当,但速度提升数量级,尤其在超大规模数据集上表现显著。
提出的方法
- 使用单调变换(如对正变量使用对数变换)将潜变量转换到实数空间,从而可使用标准多变量正态变分族。
- 在变换后的空间中使用均场高斯近似,这在原始参数空间中诱导出非高斯近似。
- 利用自动微分计算变分下界(ELBO)相对于变分参数的梯度,从而实现高效优化。
- 应用带有小批量的随机优化以扩展至大规模数据集,并使用缩放因子校正ELBO中的子采样偏差。
- 将该方法集成到Stan的概率编程框架中,使用户能够用Stan语言编写模型,并自动应用ADVI而无需额外实现。
- 使用重参数化梯度与黑箱变分推断技术,高效优化ELBO,而无需解析推导。
实验结果
研究问题
- RQ1是否可以在通用概率编程框架(如Stan)中完全自动化变分推断,而无需针对特定模型进行推导?
- RQ2自动微分与随机优化是否能够实现在大规模数据集(如250,000张图像)上的可扩展贝叶斯推断,而这些数据集对MCMC而言不可行?
- RQ3所提出的自动变分推断方法是否在准确率上与MCMC相当,同时显著更快?
- RQ4该方法是否能够无需共轭性假设,处理广泛的模型类别,包括非共轭与层次化模型?
- RQ5ADVI在速度与预测准确率方面与Stan的默认MCMC采样器(NUTS)相比表现如何?
主要发现
- 在包含1,000张图像的层次化逻辑回归模型上,ADVI相比NUTS(Stan的默认MCMC采样器)实现了数量级的速度提升。
- 在250,000张图像的非共轭高斯混合模型上,ADVI在两小时内生成了有效的后验近似,而标准MCMC在此任务上不可行。
- 在1,000张图像的数据集上,ADVI在保留预测似然性方面优于NUTS,表明其在更快速度下仍具备良好的模型拟合能力。
- 该方法成功支持了多种模型,包括层次化广义线性模型、非共轭矩阵分解与高斯混合模型,且无需针对模型进行特定修改。
- 结合子采样的随机变分推断使ADVI能够扩展至大规模数据集,在保持准确率的同时显著降低计算时间。
- ADVI已成功集成至Stan 2.7及更高版本,为任意Stan模型提供无缝、自动化的推断选项。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。