[论文解读] Stochastic Backpropagation and Approximate Inference in Deep Generative Models
本文推导了用于优化具有高斯潜变量的深度生成模型的随机反向传播规则,给出了高斯梯度恒等式,并讨论了方差约减和近似推断技术。
We marry ideas from deep neural networks and approximate Bayesian inference to derive a generalised class of deep, directed generative models, endowed with a new algorithm for scalable inference and learning. Our algorithm introduces a recognition model to represent approximate posterior distributions, and that acts as a stochastic encoder of the data. We develop stochastic back-propagation -- rules for back-propagation through stochastic variables -- and use this to develop an algorithm that allows for joint optimisation of the parameters of both the generative and recognition model. We demonstrate on several real-world data sets that the model generates realistic samples, provides accurate imputations of missing data and is a useful tool for high-dimensional data visualisation.
研究动机与目标
- 通过将确定性部分与随机部分分离,阐明随机反向传播在深度生成模型中的运作方式。
- 推导 Bonnet’s 和 Price’s 定理在高斯期望上的适用,以实现梯度计算。
- 提供方差约减的实用方法以及对非高斯分布的灵活坐标变换。
- 展示具有高斯潜变量结构的深度有向模型中的概率推断与学习。
提出的方法
- 通过将坐标从 h_l 变为 ξ_l,将确定性部分和随机部分分离,从而形式化联合对数似然。
- 推导高斯梯度恒等式(Bonnet’s 和 Price’s 定理)以实现高效梯度估计。
- 提出两种随机反向传播方法:一种基于乘积法则、带有 B(x;θ) 变换的方法,以及另一种适用于各种分布的坐标变换方法。
- 讨论通过控制变量实现方差约减的技术,并将 REINFORCE 与此框架联系起来。
- 通过重要性采样描述边际似然的估计量,并概述使用关于缺失像素的马尔科夫链进行缺失数据插补的过程。
实验结果
研究问题
- RQ1随机反向传播如何在具有高斯潜变量的深度生成模型中推导并应用?
- RQ2哪些高斯梯度恒等式使在高斯噪声下的期望值能够实现高效的梯度估计?
- RQ3在变分学习中使用的随机梯度估计器中如何降低方差?
- RQ4如何通过坐标变换或非线性重新参数化将随机反向传播扩展到非高斯分布?
- RQ5在该框架内如何处理边际似然和缺失数据?
主要发现
- Bonnet’s 定理显示,在高斯分布的均值下,对期望的梯度等于对该函数梯度的期望。
- Price’s 定理将对协方差的期望梯度表示为函数的Hessian在高斯噪声下的期望的一半。
- 一种基于乘积法则的随机反向传播方法引入非线性函数 B(x) 来变换梯度并实现跨随机层的反向传播。
- 替代的坐标变换允许对高斯以外的分布进行随机反向传播,例如 Levy、Log-Normal 和 Generalized Extreme Value 家族。
- 方差分析表明 REINFORCE 型估计量可能具有比基于 Bonnet/Prices 的方法更高的方差,尤其是变量数量增多时。
- 重要性采样提供了使用识别模型样本来估计边际似然的实用估计量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。