Skip to main content
QUICK REVIEW

[论文解读] Stochastic Backpropagation through Mixture Density Distributions

Alex Graves|arXiv (Cornell University)|Jul 19, 2016
Gaussian Processes and Bayesian Inference参考文献 3被引用 35
一句话总结

本文提出了一种用于训练具有混合密度分布的模型的随机反向传播方法,通过使用多变量分位数变换和蒙特卡洛采样,推导出混合权重的无偏梯度估计器。该方法通过可微采样和梯度估计,实现了变分自编码器中混合分布潜变量的端到端训练,克服了重参数化技巧在离散混合组件上的局限性。

ABSTRACT

The ability to backpropagate stochastic gradients through continuous latent distributions has been crucial to the emergence of variational autoencoders and stochastic gradient variational Bayes. The key ingredient is an unbiased and low-variance way of estimating gradients with respect to distribution parameters from gradients evaluated at distribution samples. The "reparameterization trick" provides a class of transforms yielding such estimators for many continuous distributions, including the Gaussian and other members of the location-scale family. However the trick does not readily extend to mixture density models, due to the difficulty of reparameterizing the discrete distribution over mixture weights. This report describes an alternative transform, applicable to any continuous multivariate distribution with a differentiable density function from which samples can be drawn, and uses it to derive an unbiased estimator for mixture density weight derivatives. Combined with the reparameterization trick applied to the individual mixture components, this estimator makes it straightforward to train variational autoencoders with mixture-distributed latent variables, or to perform stochastic variational inference with a mixture density variational posterior.

研究动机与目标

  • 为解决由于离散混合权重导致不可重参数化的混合密度分布的反向传播挑战。
  • 通过推导混合权重的无偏梯度估计器,将重参数化技巧扩展至混合模型。
  • 在深度生成模型中实现具有混合密度变分后验的随机变分推断。
  • 为通过任意具有可微密度和可 tractable 逆 CDF 的连续多变量分布提供通用的梯度估计框架。

提出的方法

  • 使用多变量分位数变换,通过使用均匀随机变量对累积分布函数(CDF)进行反演,从连续分布中采样。
  • 利用莱布尼茨积分法则和 CDF 的递归反演,推导出分布参数的一般梯度估计器。
  • 通过从条件密度中使用拒绝采样,应用蒙特卡洛采样来估计梯度计算中的不可解积分。
  • 通过将条件密度表示为分量密度的加权和,并利用递归更新跟踪分量责任,将该方法适配至混合密度模型。
  • 推导出用于计算潜变量和分量责任相对于混合权重的梯度的联合递归关系,从而实现对混合权重的反向传播。
  • 采用伪代码算法(算法1),通过前向采样和对分位数变换及混合结构的导数反向传播,迭代计算梯度。

实验结果

研究问题

  • RQ1当由于离散混合权重导致重参数化技巧失效时,能否推导出混合密度参数的无偏且低方差的梯度估计器?
  • RQ2仅通过可微采样和可 tractable 的 CDF 反演,如何计算混合密度分布潜变量的梯度?
  • RQ3能否通过结合分位数变换、递归责任跟踪和蒙特卡洛积分,将随机反向传播扩展至混合模型?
  • RQ4为在保持可微性和数值稳定性的同时,对混合权重进行反向传播,需要什么样的计算结构?

主要发现

  • 所提出的方法通过将多变量分位数变换与不可解积分的蒙特卡洛近似相结合,实现了对混合密度参数的无偏梯度估计。
  • 该梯度估计器适用于任何具有可微密度和可 tractable CDF 反演的连续多变量分布,不限于混合分布。
  • 对于混合模型,该方法通过在潜变量维度上进行联合递归,计算通过混合权重的梯度,同时跟踪分量责任及其导数。
  • 该方法支持具有混合分布潜变量的变分自编码器的端到端训练,实现了更灵活的后验近似。
  • 该方法在数值上稳定且高效,如伪代码和无需显式计算完整 CDF 梯度的递归梯度计算所示。
  • 该框架支持具有混合密度变分后验的随机变分推断,将变分推断的适用范围扩展至复杂、多模态的后验分布。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。