QUICK REVIEW

[论文解读] Approximate Inference with Amortised MCMC

Yingzhen Li, Richard E. Turner|arXiv (Cornell University)|Feb 27, 2017

Generative Adversarial Networks and Image Synthesis参考文献 54被引用 29

一句话总结

该论文提出了一种新型的 amortized MCMC 框架，通过利用 MCMC 动力学作为教师模型，训练神经网络以生成近似后验样本。通过迭代地利用 MCMC 对样本进行精炼，并利用反馈更新网络，该方法即使在处理复杂且不可解析的分布时，也能实现灵活且高质量的后验近似——在深度生成模型中实现了最先进的图像生成性能，并在缺失数据插补任务中表现出色。

ABSTRACT

We propose a novel approximate inference algorithm that approximates a target distribution by amortising the dynamics of a user-selected MCMC sampler. The idea is to initialise MCMC using samples from an approximation network, apply the MCMC operator to improve these samples, and finally use the samples to update the approximation network thereby improving its quality. This provides a new generic framework for approximate inference, allowing us to deploy highly complex, or implicitly defined approximation families with intractable densities, including approximations produced by warping a source of randomness through a deep neural network. Experiments consider image modelling with deep generative models as a challenging test for the method. Deep models trained using amortised MCMC are shown to generate realistic looking samples as well as producing diverse imputations for images with regions of missing pixels.

研究动机与目标

开发一种通用且可扩展的近似贝叶斯推理框架，避免变分推理中对可 tractable 密度函数的依赖。
通过避免显式密度计算，使复杂且隐式定义的近似分布（如深度归一化流）能够应用于 amortized 推理。
通过 MCMC 精炼和迭代网络自适应，提升深度生成模型和贝叶斯神经网络中的后验近似质量。
通过利用 MCMC 探索复杂目标分布的能力，解决标准变分推理在捕捉多模态后验分布方面的局限性。

提出的方法

该方法采用学生-教师框架：神经网络（学生）生成初始样本，再由 MCMC 采样器（教师）进行精炼。
MCMC 采样器应用用户定义的转移核来改进初始样本，从而生成更高质量的后验近似。
学生网络通过对抗估计的散度和能量匹配进行更新，以最小化其输出与 MCMC 精炼后样本之间的差异。
该框架具有通用性，可与任意 MCMC 核及任意近似采样器族结合使用，包括具有不可解析密度的模型。
通过利用 MCMC 转移的反馈，训练过程实现了 MCMC 成本的 amortized 化，学习到一个随时间改进的参数化提议网络。
该方法支持后验采样和似然估计，适用于贝叶斯神经网络和深度生成模型。

实验结果

研究问题

RQ1能否有效 amortized MCMC 动力学，以在不依赖可 tractable 密度函数的前提下，训练灵活且高容量的后验近似器？
RQ2与标准变分推理相比，amortized MCMC 在后验质量与似然估计精度方面表现如何？
RQ3amortized MCMC 是否能比单峰变分近似更有效地捕捉图像生成和缺失数据插补任务中的多模态后验分布？
RQ4该方法在多大程度上提升了深度生成模型中的样本多样性与重建保真度？

主要发现

所提出的 amortized MCMC 方法在 MNIST 上实现了 -85.6 nats 的测试对数似然，显著优于标准 VAE，并与最佳变分基线模型相当。
通过使用哈密顿退火重要性采样（HAIS），该方法表明基于 IWAE 的似然估计存在显著偏差，而 AMC 模型则展现出更优越的真实似然估计性能。
在缺失数据插补任务中，AMC 训练的模型生成了多样且高质量的重建结果，能够探索多种有效的补全方式，而 VAE 则被困在局部模式中。
在训练集最近邻中，AMC 模型的标签分布熵更高（例如，CNN-B 的熵为 1.8），表明其插补图像的多样性优于 VAE（熵约 1.0）。
采用 T=50 次 MCMC 步骤的最佳 AMC 模型，在测试对数似然上相比持久 MCMC 基线提升了 0.6 nats，证实了 amortized 精炼的有效性。
该方法在深度生成建模中生成了真实且多样的样本，并在计算资源有限的情况下，仍能实现贝叶斯神经网络分类中的有效后验近似。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。