QUICK REVIEW

[论文解读] Advances in Variational Inference

Cheng Zhang, Judith Bütepage|arXiv (Cornell University)|Nov 15, 2017

Gaussian Processes and Bayesian Inference参考文献 223被引用 25

一句话总结

本文回顾了过去十年中变分推断（VI）的最新进展，重点聚焦于可扩展、通用、精确和压缩化推断方法。它综合了随机优化、黑箱VI、结构化近似和基于神经网络的推断网络方面的进展，强调了这些方法在实现高效贝叶斯深度学习和概率建模中的作用。

ABSTRACT

Many modern unsupervised or semi-supervised machine learning algorithms rely on Bayesian probabilistic models. These models are usually intractable and thus require approximate inference. Variational inference (VI) lets us approximate a high-dimensional Bayesian posterior with a simpler variational distribution by solving an optimization problem. This approach has been successfully used in various models and large-scale applications. In this review, we give an overview of recent trends in variational inference. We first introduce standard mean field variational inference, then review recent advances focusing on the following aspects: (a) scalable VI, which includes stochastic approximations, (b) generic VI, which extends the applicability of VI to a large class of otherwise intractable models, such as non-conjugate models, (c) accurate VI, which includes variational models beyond the mean field approximation or with atypical divergences, and (d) amortized VI, which implements the inference over local latent variables with inference networks. Finally, we provide a summary of promising future research directions.

研究动机与目标

提供2010至2017年间变分推断（VI）最新发展的全面综述。
通过回顾现代扩展方法，解决经典VI的局限性，如模型适用性受限和可扩展性问题。
突出VI与深度学习及概率编程的整合，以提升推断效率和可访问性。
识别理论、不确定性估计以及非专家用户实际可用性方面的开放挑战。
将VI定位为现代贝叶斯机器学习中的基础工具，尤其在大规模和复杂模型中。

提出的方法

利用随机梯度下降和重参数化梯度，实现在大规模数据集上的可扩展VI。
应用黑箱变分推断（BBVI）处理非共轭和复杂模型，而无需解析推导。
采用结构化变分族和替代散度（如f-散度）以在均值场之外提升近似精度。
通过推断网络（如变分自编码器中的推断网络）引入压缩化推断，实现在数据点之间共享参数并加速推断。
利用概率编程框架自动化推断，减轻手动实现负担。
结合退火策略和控制变量，以稳定训练过程并降低梯度估计的方差。

实验结果

研究问题

RQ1如何使变分推断能够扩展到大规模数据集和现代深度学习模型？
RQ2哪些技术能够实现对非共轭和复杂概率模型的通用VI？
RQ3如何使变分近似在超越均值场假设的前提下更加精确？
RQ4通过神经网络实现的压缩化推断在贝叶斯深度学习中如何提升效率和泛化能力？
RQ5在理论、不确定性量化和非专家用户可用性方面，关键的开放挑战是什么？

主要发现

使用重参数化梯度的随机变分推断可通过小批量数据实现大规模数据集上的高效优化。
如BBVI等黑箱VI算法使VI能够适用于广泛不可解析的模型，而无需共轭先验。
结构化变分族和非均值场近似显著提升了标准均值场方法的后验近似质量。
使用深度神经网络作为推断网络的压缩化推断，使变分自编码器等模型能够实现端到端训练。
将VI与Edward和Zhusuan等概率编程工具集成，促进了快速原型设计和部署。
尽管已取得进展，理论保证、方差减少以及非专家用户的可用性方面仍存在挑战，尤其是在对称性破坏和控制变量设计方面。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。