QUICK REVIEW

[论文解读] Efficient Gradient-Based Inference through Transformations between Bayes Nets and Neural Nets

Diederik P. Kingma, Max Welling|arXiv (Cornell University)|Feb 3, 2014

Gaussian Processes and Bayesian Inference参考文献 32被引用 39

一句话总结

本文提出了一种可微分重参数化技术，可在贝叶斯网络和神经网络中实现潜变量的中心化与非中心化参数化之间的转换，从而实现高效的基于梯度的推断。主要贡献在于表明非中心化参数化可降低后验相关性，并提升采样效率，尤其在高维或高度相关的模型中表现更优。

ABSTRACT

Hierarchical Bayesian networks and neural networks with stochastic hidden units are commonly perceived as two separate types of models. We show that either of these types of models can often be transformed into an instance of the other, by switching between centered and differentiable non-centered parameterizations of the latent variables. The choice of parameterization greatly influences the efficiency of gradient-based posterior inference; we show that they are often complementary to eachother, we clarify when each parameterization is preferred and show how inference can be made robust. In the non-centered form, a simple Monte Carlo estimator of the marginal likelihood can be used for learning the parameters. Theoretical results are supported by experiments.

研究动机与目标

解决由于后验相关性高导致的层次化贝叶斯网络和深度生成模型中基于梯度推断效率低下的问题。
通过连续潜变量的重参数化，探索贝叶斯网络与神经网络之间的对偶性。
证明非中心化参数化（DNCP）可降低后验依赖性并提升采样效率。
开发一种在不同模型状态下可切换参数化形式的稳健推断策略，以保持整体效率。
实现可微分的边缘似然估计，以支持深度生成模型中的端到端学习。

提出的方法

提出一种可微分的非中心化参数化（DNCP），其中潜变量表示为噪声变量和参数的确定性函数：$\mathbf{z}_j = g_j(\mathbf{pa}_j, \boldsymbol{\epsilon}_j, \boldsymbol{\theta})$。
利用重参数化技巧使联合对数似然关于模型参数可微，从而支持反向传播。
在DNCP形式下应用混合蒙特卡洛（HMC）和无U-转弯采样器（no-U-turn sampler），利用平滑梯度进行后验推断。
在DNCP中使用边缘似然的蒙特卡罗估计器，通过梯度上升法进行参数学习。
设计一种混合MCMC策略，交替使用中心化与非中心化形式，以在高相关性环境下提升混合效率。
实现并比较最大蒙特卡罗似然（MMCL）与MCEM在MNIST数据集上的深度生成模型训练效果。

实验结果

研究问题

RQ1在层次化模型中，潜变量的参数化形式如何影响后验相关性？
RQ2非中心化参数化能否降低后验依赖性，并提升基于梯度推断的采样效率？
RQ3在何种场景下，非中心化参数化相较于中心化形式更具优势？
RQ4一种在参数化形式间切换的混合MCMC策略，能否提升高维模型中的鲁棒性与混合效率？
RQ5可微分边缘似然估计在深度生成模型中的性能，与传统MCEM相比如何？

主要发现

当潜变量受其父节点强烈影响时，非中心化参数化（DNCP）显著降低了后验相关性，从而在HMC中实现更快的混合速度。
当潜变量方差较小时（$\sigma_z^2 \to 0$），中心化参数化（CP）表现出极高的后验相关性，导致HMC混合速度极慢。
DNCP形式支持通过简单的边缘似然蒙特卡罗估计器实现高效的基于梯度的学习，且该估计器对模型参数可微。
使用$L=500$个样本的MMCL在MNIST上实现了具有竞争力的边缘似然，且在训练速度和大规模数据集可扩展性方面优于MCEM。
尽管在高维潜空间中混合速度较慢，DNCP在相同设置下仍表现出比CP更优的收敛性。
理论分析证实，后验相关性在CP与DNCP之间具有互补性：一者相关性高，另一者则低，从而可通过参数化切换实现稳健的MCMC推断。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。