Skip to main content
QUICK REVIEW

[论文解读] The Generalized Reparameterization Gradient

Francisco J. R. Ruiz, Michalis K. Titsias|arXiv (Cornell University)|Oct 7, 2016
Gaussian Processes and Bayesian Inference参考文献 32被引用 27
一句话总结

该论文提出了广义重参数化梯度(g-rep),一种将低方差重参数化梯度扩展至非高斯变分分布(如贝塔分布和伽马分布)的方法,通过使用对变分参数弱依赖的可逆变换实现。该方法结合了重参数化梯度与得分函数梯度,仅需一次蒙特卡洛采样即可实现快速、精确的变分推断,在似然度和收敛性方面优于BBVI和ADVI。

ABSTRACT

The reparameterization gradient has become a widely used method to obtain Monte Carlo gradients to optimize the variational objective. However, this technique does not easily apply to commonly used distributions such as beta or gamma without further approximations, and most practical applications of the reparameterization gradient fit Gaussian distributions. In this paper, we introduce the generalized reparameterization gradient, a method that extends the reparameterization gradient to a wider class of variational distributions. Generalized reparameterizations use invertible transformations of the latent variables which lead to transformed distributions that weakly depend on the variational parameters. This results in new Monte Carlo gradients that combine reparameterization gradients and score function gradients. We demonstrate our approach on variational inference for two complex probabilistic models. The generalized reparameterization is effective: even a single sample from the variational distribution is enough to obtain a low-variance gradient.

研究动机与目标

  • 解决标准重参数化梯度的局限性,即其仅适用于高斯变分族,难以直接应用于贝塔分布或伽马分布等常见分布。
  • 开发一种方法,在保持重参数化优势(低方差)的同时,将适用范围扩展至更广泛的非共轭概率模型。
  • 在无需近似或严格假设的前提下,实现对复杂非高斯变分族的黑盒变分推断。
  • 证明单次蒙特卡洛采样即可提供足够低方差的梯度估计,从而提升计算效率。

提出的方法

  • 引入潜变量的可逆变换,使得变换后变量的分布对变分参数的依赖程度较弱。
  • 构建一种新的梯度估计器,结合变换后变量的重参数化梯度与变换雅可比矩阵的得分函数梯度,形成混合梯度。
  • 利用变量变换公式,将原始潜变量的对数密度表示为变换后变量及其变换雅可比矩阵的函数。
  • 推导广义重参数化梯度,即变分下界关于变换后变量和雅可比矩阵的梯度的期望。
  • 将该方法应用于具有伽马分布和贝塔分布潜变量的模型,实现无需高斯近似的高效推断。
  • 通过复用现有的变分族和可微模型,保持黑盒兼容性,同时避免纯得分函数方法的高方差问题。

实验结果

研究问题

  • RQ1能否在不依赖近似的情况下,将重参数化梯度扩展至贝塔分布和伽马分布等非高斯变分分布?
  • RQ2在非共轭模型中,如何降低非高斯后验的黑盒变分推断中梯度估计的方差?
  • RQ3在使用广义重参数化时,单次蒙特卡洛采样是否足以提供足够低方差的梯度估计,即使在复杂模型中?
  • RQ4广义重参数化梯度是否在收敛速度和似然质量方面优于BBVI和ADVI等现有方法?
  • RQ5能否设计出使变换后分布仅对变分参数弱依赖的可逆变换,从而实现高效的梯度计算?

主要发现

  • 广义重参数化梯度使非高斯分布(如伽马分布和贝塔分布)的高效变分推断成为可能,而这些分布原本难以通过标准重参数化方法处理。
  • 单次蒙特卡洛采样即可实现低方差梯度估计,使该方法计算效率高,且快于BBVI。
  • g-rep在收敛速度上优于BBVI,每轮迭代快1至4倍,并达到更优的ELBO值。
  • 在nips和Omniglot数据集上,g-rep的测试对数似然更高,困惑度更低,表明模型拟合更优。
  • 在MNIST数据集上,g-rep的ELBO高于BBVI和ADVI,表明其变分近似更优,尤其得益于其对稀疏性的捕捉能力。
  • 生成样本的视觉检查显示,g-rep生成的图像比ADVI更清晰,ADVI倾向于生成模糊输出,证实了其更优的后验近似能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。