QUICK REVIEW

[论文解读] Rényi Divergence Variational Inference

Yingzhen Li, Richard E. Turner|arXiv (Cornell University)|Feb 6, 2016

Statistical Methods and Inference被引用 75

一句话总结

本文提出了变分Rényi界（VR），一种基于Rényi α-散度统一化变分推断的框架，扩展了传统方法。通过优化 α，该方法在证据下界（ELBO）与对数似然之间插值，其中 VR-max（α → −∞）实现了与IWAE相当的最先进性能，同时通过主导样本梯度近似实现更快训练。

ABSTRACT

This paper introduces the variational Rényi bound (VR) that extends traditional variational inference to Rényi's alpha-divergences. This new family of variational methods unifies a number of existing approaches, and enables a smooth interpolation from the evidence lower-bound to the log (marginal) likelihood that is controlled by the value of alpha that parametrises the divergence. The reparameterization trick, Monte Carlo approximation and stochastic optimisation methods are deployed to obtain a tractable and unified framework for optimisation. We further consider negative alpha values and propose a novel variational inference method as a new special case in the proposed framework. Experiments on Bayesian neural networks and variational auto-encoders demonstrate the wide applicability of the VR bound.

研究动机与目标

将现有变分推断方法（如VI、VAE、IWAE和SEP）统一于基于Rényi α-散度的单一框架下。
基于重参数化、蒙特卡洛近似和随机优化，开发可处理的优化框架以用于VR界。
探索负 α 值，提出一种新方法称为VR-max作为特例。
在贝叶斯神经网络和变分自编码器上对VR框架进行实证评估，证明其广泛适用性和性能优势。

提出的方法

提出变分Rényi界（VR）作为ELBO的推广，基于 α ∈ (−∞, ∞) 的Rényi α-散度定义，其中 α → 1 时恢复KL散度，α → ∞ 时恢复最坏情况遗憾。
采用重参数化技巧与蒙特卡洛采样，实现对所有 α 值的可微分、随机优化。
推导蒙特卡洛近似的偏差分析，提供理论保证并实证验证估计稳定性。
提出VR-max作为 α → −∞ 时的特例，其中梯度由归一化重要性权重最大的样本主导。
使用自动微分实现复杂模型中VR界的黑箱优化。
采用基于K个样本的采样近似表示VR界，并对偏差与方差进行理论与实证分析。

实验结果

研究问题

RQ1Rényi α-散度如何用于统一现有变分推断方法（如VI、VAE和IWAE）？
RQ2变分Rényi界在理论上的性质如何，特别是其在蒙特卡洛近似下的偏差与收敛性？
RQ3负 α 值能否带来推断性能的提升？若能，其背后的机制是什么？
RQ4所提出的VR-max方法在近似质量与训练效率方面与IWAE相比如何？
RQ5不同概率模型与数据集下，α 的最优选择是什么？

主要发现

在MNIST、OMNIGLOT、Frey Face和Caltech 101 Silhouettes数据集上，VR-max的测试对数似然与IWAE几乎无法区分，且由于最高权重样本主导梯度，CPU训练速度提升约3倍。
在Frey Face数据集上，当K=5时，VR-max的测试对数似然达1377.40 ± 4.59，优于VAE（1322.96），并匹配IWAE（1380.30），同时训练速度显著更快。
VR界是似然对数的下界，且当 α → −∞ 时，与真实对数似然的差距缩小，K值越大，界越紧。
在VR-max中，最大的归一化重要性权重主导梯度更新，占总概率质量的75%以上，这解释了其高效性与优异性能。
对于正 α 值（如 α=0.5），性能劣于VR-max，表明在最大似然估计中更紧的似然近似更优。
蒙特卡洛估计的标准误差在所有 α 值下均保持低且稳定，而主要误差来源为近似偏差，而非方差。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。