QUICK REVIEW

[论文解读] Variational Boosting: Iteratively Refining Posterior Approximations

Andrew C. Miller, Nicholas J. Foti|arXiv (Cornell University)|Nov 20, 2016

Advanced Multi-Objective Optimization Algorithms被引用 62

一句话总结

本文提出变分提升（Variational Boosting），一种顺序变分推断方法，通过迭代添加结构化分量（首先为均值场，然后为低秩，最后为混合分量）逐步改进后验近似，以更好地捕捉复杂后验形状。该方法在层次贝努利、泊松广义线性模型和贝叶斯神经网络模型中，后验估计显著优于均值场变分推断，并接近马尔可夫链蒙特卡洛（MCMC）的精度，尤其在建模非高斯相关性和异方差性方面表现优异。

ABSTRACT

We propose a black-box variational inference method to approximate intractable distributions with an increasingly rich approximating class. Our method, termed variational boosting, iteratively refines an existing variational approximation by solving a sequence of optimization problems, allowing the practitioner to trade computation time for accuracy. We show how to expand the variational approximating class by incorporating additional covariance structure and by introducing new components to form a mixture. We apply variational boosting to synthetic and real statistical models, and show that resulting posterior inferences compare favorably to existing posterior approximation algorithms in both accuracy and efficiency.

研究动机与目标

为解决均值场变分推断在高维、非共轭模型中难以捕捉复杂后验依赖关系的局限性。
开发一种可扩展的迭代方法，通过添加结构化分量（对角、低秩和混合高斯）逐步优化后验近似，以更好地建模非高斯后验形状。
评估顺序分量添加是否能在保持计算效率的同时，实现接近MCMC的矩估计精度。
在多种模型中验证该方法的有效性：层次贝努利回归、泊松广义线性模型和贝叶斯神经网络。

提出的方法

该方法采用顺序优化框架，每次新增分量以改进后验近似，从均值场基线开始。
每个新增分量为具有特定结构的多元高斯分布：初始为对角协方差，随后为低秩（秩1至秩3），最后为这类分量的混合。
使用随机梯度下降结合自动微分（通过autograd）优化每个新增分量的参数，每一分量使用400个样本进行梯度估计。
在每一步最大化变分下界（ELBO），每个新增分量均提升对真实后验的近似能力。
所有实验中均采用无退避采样（No-U-Turn Sampler, NUTS）作为后验矩的基准真值。
该方法应用于三个真实世界模型：一个20维的层次贝努利模型、一个37维的泊松广义线性模型，以及一个含50个隐藏单元的贝叶斯神经网络。

实验结果

研究问题

RQ1通过结构化分量的迭代优化，能否使变分近似在后验估计上超越均值场变分推断？
RQ2低秩和混合高斯分量在多大程度上能捕捉层次模型中非高斯后验相关性？
RQ3在提升序列中，每增加一个分量，矩估计（方差和协方差）的精度如何提升？
RQ4在复杂高维模型（如贝叶斯神经网络）中，变分提升能否实现接近MCMC的后验近似？

主要发现

在层次贝努利模型中，变分提升的后验边际分布与NUTS结果高度一致，显著优于均值场变分推断在单变量和双变量分布上的表现。
在20维棒球模型中，随着分量的逐步添加，协方差估计误差持续降低，最终近似结果与基于MCMC的估计非常接近。
在37维泊松广义线性模型中，将高斯分量的秩从0提升至3，显著改善了边际方差估计；进一步添加混合分量后，误差进一步降低，尤其在高相关方向上表现更优。
在frisk模型中引入秩3混合分量后，边际标准差的最大低估程度从约15%降至5%以下。
对于成对协方差，每增加一个分量，近似精度均有所提升，8分量混合模型与MCMC估计的相关性极高。
在贝叶斯神经网络中，变分提升实现了与概率反向传播（Probabilistic Backpropagation, PBP）相当的预测性能，证明其在高维、非共轭设置下的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。