[论文解读] f-Divergence Variational Inference
本文提出f-散度变分推断(f-VI),一种统一框架,通过最小化代理f-散度,将变分推断推广至所有f-散度。该框架引入了一般化的f-变分界以估计边缘似然,并结合重参数化、重要性加权和蒙特卡洛近似,发展出随机与均场优化方案,使该方法在变分自编码器和贝叶斯神经网络等模型中具有广泛适用性。
This paper introduces the $f$-divergence variational inference ($f$-VI) that generalizes variational inference to all $f$-divergences. Initiated from minimizing a crafty surrogate $f$-divergence that shares the statistical consistency with the $f$-divergence, the $f$-VI framework not only unifies a number of existing VI methods, e.g. Kullback-Leibler VI, Renyi's $\alpha$-VI, and $\chi$-VI, but offers a standardized toolkit for VI subject to arbitrary divergences from $f$-divergence family. A general $f$-variational bound is derived and provides a sandwich estimate of marginal likelihood (or evidence). The development of the $f$-VI unfolds with a stochastic optimization scheme that utilizes the reparameterization trick, importance weighting and Monte Carlo approximation; a mean-field approximation scheme that generalizes the well-known coordinate ascent variational inference (CAVI) is also proposed for $f$-VI. Empirical examples, including variational autoencoders and Bayesian neural networks, are provided to demonstrate the effectiveness and the wide applicability of $f$-VI.
研究动机与目标
- 将现有基于f-散度的变分推断方法统一于单一理论框架之下。
- 解决传统变分推断仅限于特定散度(如KL散度)的局限性。
- 为任意f-散度提供标准化的变分推断工具包。
- 推导一般化的f-变分界,实现边缘似然的夹逼估计。
- 开发适用于复杂模型(如VAE和贝叶斯神经网络)的实际应用的可扩展优化方案。
提出的方法
- 提出一种代理f-散度,其在优化过程中保持与原始f-散度的统计一致性。
- 推导一般化的f-变分界,可同时提供边缘似然的上界与下界,实现夹逼估计。
- 采用结合重参数化技巧、重要性加权与蒙特卡洛近似的随机优化方案,实现高效的梯度估计。
- 提出一种均场近似方案,将坐标上升变分推断(CAVI)推广至任意f-散度。
- 将该框架应用于使用摊销推断与结构化变分族的概率模型。
- 利用f-散度族对变分近似进行参数化,实现后验估计中灵活的散度控制。
实验结果
研究问题
- RQ1变分推断能否超越KL散度,推广至所有f-散度?
- RQ2如何构建一个一致的代理f-散度,以在保持统计性质的同时实现优化?
- RQ3一般化的f-变分界的形式为何,能够同时提供边缘似然的上界与下界?
- RQ4随机与均场优化方案如何适配任意f-散度?
- RQ5f-变分推断在变分自编码器与贝叶斯神经网络等模型中能多大程度提升性能?
主要发现
- f-变分界提供了边缘似然的夹逼估计,同时提供上界与下界,显著提升了证据近似的质量。
- 代理f-散度保持了与原始f-散度的统计一致性,确保了在变分推断框架中优化的可靠性。
- 基于重参数化、重要性加权与蒙特卡洛近似的随机优化方案,实现了深度生成模型中的可扩展训练。
- 均场近似方案将CAVI推广至任意f-散度,支持在因子化解耦的变分族上进行迭代优化。
- 在变分自编码器与贝叶斯神经网络上的实证结果表明,f-VI在多种模型架构中均表现出有效性与广泛适用性。
- 该框架成功地将现有方法(如KL VI、Rényi α-变分推断与χ²-变分推断)统一于单一理论框架之下。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。