Skip to main content
QUICK REVIEW

[论文解读] Structured Stochastic Variational Inference

Matthew D. Hoffman, David M. Blei|arXiv (Cornell University)|Apr 16, 2014
Gaussian Processes and Bayesian Inference参考文献 33被引用 49
一句话总结

本文提出了结构化随机变分推断(SSVI),这是对随机变分推断的泛化,通过允许全局参数与局部隐变量之间的依赖关系,放宽了平均场假设。通过将变分分布建模为 $ q(z,\beta) = \left(\prod_k q(\beta_k)\right) \prod_n q(z_n|\beta) $,SSVI 减少了近似偏差,避免了局部最优解,并在 LDA 等大规模模型中提升了参数估计的准确性,其在准确性和对超参数的鲁棒性方面均优于标准 SVI。

ABSTRACT

Stochastic variational inference makes it possible to approximate posterior distributions induced by large datasets quickly using stochastic optimization. The algorithm relies on the use of fully factorized variational distributions. However, this "mean-field" independence approximation limits the fidelity of the posterior approximation, and introduces local optima. We show how to relax the mean-field approximation to allow arbitrary dependencies between global parameters and local hidden variables, producing better parameter estimates by reducing bias, sensitivity to local optima, and sensitivity to hyperparameters.

研究动机与目标

  • 为解决在高维、多模态后验分布中,平均场变分推断因独立性假设而引入偏差和陷入局部最优的问题。
  • 将随机变分推断扩展至能够捕捉全局参数与局部隐变量之间依赖关系的结构化近似方法。
  • 开发一种可扩展的、基于随机优化的框架,在保持计算效率的同时提升后验近似的保真度。
  • 降低对超参数的敏感性,并避免平均场 SVI 中常见的不良局部最优解。
  • 在真实世界的大规模数据集(如维基百科文本语料库)上,通过 LDA 等主题模型展示 SSVI 的有效性。

提出的方法

  • 提出结构化变分分布 $ q(z,\beta) = \left(\prod_k q(\beta_k)\right) \prod_n q(z_n|\beta) $,允许全局参数 $ \beta $ 与局部变量 $ z_n $ 之间存在任意依赖关系。
  • 将随机优化方法适配于使用数据小批量的噪声梯度来更新全局参数 $ \beta $,从而保持可扩展性。
  • 利用自然梯度和费雪信息矩阵推导出变分参数的闭式更新,尤其适用于指数族分布(如狄利克雷分布)。
  • 通过逆累积分布函数抽样(例如,使用伽马随机变量对狄利克雷分布进行重参数化)实现可微分抽样与梯度计算。
  • 提出两种变体:SSVI(使用自然梯度)和 SSVI-A(使用自适应步长),两者均针对高效的在线学习而设计。
  • 将该框架应用于潜在狄利克雷分配(LDA),通过矩阵求逆引理高效计算充分统计量和费雪矩阵的逆。

实验结果

研究问题

  • RQ1全局参数与局部隐变量之间的结构化依赖关系是否能改善随机变分推断中的后验近似?
  • RQ2放宽平均场假设是否能减少大规模贝叶斯模型中的偏差和对超参数的敏感性?
  • RQ3能否通过随机优化将结构化变分推断高效地扩展到大规模数据集?
  • RQ4与平均场 SVI 和吉布斯抽样相比,SSVI 在预测准确性和收敛速度方面表现如何?
  • RQ5SSVI 在多模态后验分布中,能在多大程度上避免标准 SVI 所面临的局部最优问题?

主要发现

  • 在包含 380 万篇文档的维基百科数据集上,SSVI 的预测准确性显著优于平均场 SVI,性能接近吉布斯抽样。
  • 采用自然梯度更新的 SSVI 算法在所有超参数设置下均优于平均场 SVI,尤其在 $ \alpha = 0.1 $ 时,平均场 SVI 性能急剧下降。
  • SSVI-A 通过使用自适应步长,进一步提升了鲁棒性,并降低了对超参数的敏感性,优于标准 SVI。
  • 当与 SSVI 配合使用时,CVB0 和吉布斯抽样在局部推断中表现相当,但平均场局部更新会降低性能。
  • 结构化近似减少了近似偏差,并有效避免了不良局部最优解,尤其在具有多模态后验分布的模型中表现更优。
  • 通过矩阵求逆引理,狄利克雷分布的费雪矩阵求逆可高效地在 $ O(V) $ 时间内完成,从而实现了可扩展的参数更新。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。