QUICK REVIEW

[论文解读] Boosting Variational Inference

Fangjian Guo, Xiangyu Wang|arXiv (Cornell University)|Nov 17, 2016

Bayesian Methods and Mixture Models参考文献 36被引用 47

一句话总结

本文提出提升变分推断（BVI），一种新颖的变分推断（VI）算法，通过迭代地从参数化基分布（如高斯分布）向混合模型中添加分量，逐步改进后验近似，从而能够准确捕捉多模态、非高斯后验。与标准VI方法不同，BVI的灵活混合族允许在计算时间增加的情况下收敛至真实后验。

ABSTRACT

Variational inference (VI) provides fast approximations of a Bayesian posterior in part because it formulates posterior approximation as an optimization problem: to find the closest distribution to the exact posterior over some family of distributions. For practical reasons, the family of distributions in VI is usually constrained so that it does not include the exact posterior, even as a limit point. Thus, no matter how long VI is run, the resulting approximation will not approach the exact posterior. We propose to instead consider a more flexible approximating family consisting of all possible finite mixtures of a parametric base distribution (e.g., Gaussian). For efficient inference, we borrow ideas from gradient boosting to develop an algorithm we call boosting variational inference (BVI). BVI iteratively improves the current approximation by mixing it with a new component from the base distribution family and thereby yields progressively more accurate posterior approximations as more computing time is spent. Unlike a number of common VI variants including mean-field VI, BVI is able to capture multimodality, general posterior covariance, and nonstandard posterior shapes.

研究动机与目标

解决标准变分推断（VI）在受限近似族下难以捕捉多模态和非高斯后验分布的局限性。
克服均值场VI及相关方法的根本性问题：即使在优化极限下，真实后验也不在近似族中。
开发一种可扩展的、迭代的VI算法，通过增加计算时间来换取更高的统计精度。
通过有限混合的参数化基分布（如高斯分布）实现灵活的后验近似，其可任意接近任意连续密度。
为现有VI方法提供一种实用且鲁棒的替代方案，这些方法对初始化敏感或无法建模复杂后验结构。

提出的方法

将后验近似表述为对所有有限混合的基分布（如高斯分布）族的优化问题，其表达能力优于标准均值场或全秩族。
采用类提升策略：从单分量近似开始，迭代地从基族中添加新分量以改进近似。
使用基于梯度的更新方法，确定每轮迭代中新混合分量的最优参数（位置、尺度、权重）。
利用基于粒子的评估（n=100个粒子）进行随机梯度估计，使该方法可扩展至高维后验。
通过添加分量来维护并更新当前变分近似，以最小化KL散度逼近真实后验。
通过允许混合分量数量随计算时间增长，确保灵活性并实现向更优近似的收敛。

实验结果

研究问题

RQ1使用有限混合的参数化基分布（如高斯分布）的变分推断方法，是否能比标准均值场或全秩VI更准确地近似复杂、多模态后验？
RQ2一种类提升的迭代VI算法是否能在无需手动调整分量数量或初始化的情况下，提升后验近似精度？
RQ3BVI能否有效捕捉高维模型中的非高斯后验形状，如多模态性和一般协方差结构？
RQ4在具有复杂几何结构的挑战性后验中，BVI与ADVI和NUTS相比，在收敛速度和精度方面表现如何？
RQ5与其它VI方法相比，BVI在计算时间与后验近似质量之间存在何种权衡？

主要发现

在传感器网络定位问题中，BVI成功捕捉了多模态后验，而ADVI无法建模复杂的非高斯形状。
在传感器网络问题中，BVI在200次迭代后，后验均值的相对误差（REM）低于0.05，显著优于ADVI在100,000次迭代后的表现。
在Nodal数据集上的贝叶斯逻辑斯蒂回归中，BVI提供的后验方差和协方差估计比均值场VI更准确，后者将协方差设为零。
在逻辑斯蒂回归示例中，BVI的后验均值估计接近真实值（Polya-Gamma MCMC），REM值低于0.03。
该方法对初始化具有鲁棒性，无需多次重启，而许多现有VI方法在固定分量数量下需要多次重启。
BVI的性能随计算时间单调提升，表明增加运行时间可带来逐步改进的近似。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。