QUICK REVIEW

[论文解读] Auto-Encoding Variational Bayes

Diederik P. Kingma, Max Welling|UvA-DARE (University of Amsterdam)|Dec 20, 2013

Gaussian Processes and Bayesian Inference参考文献 15被引用 15,549

一句话总结

引入具有重参数化技巧（SGVB）的随机变分推断框架以及可自动编码VB（AEVB）算法，能够扩展到大规模数据集并实现对连续潜变量的高效推断。当使用神经网络作为识别模型时，便可得到变分自编码器（VAE）。

ABSTRACT

How can we perform efficient inference and learning in directed probabilistic models, in the presence of continuous latent variables with intractable posterior distributions, and large datasets? We introduce a stochastic variational inference and learning algorithm that scales to large datasets and, under some mild differentiability conditions, even works in the intractable case. Our contributions are two-fold. First, we show that a reparameterization of the variational lower bound yields a lower bound estimator that can be straightforwardly optimized using standard stochastic gradient methods. Second, we show that for i.i.d. datasets with continuous latent variables per datapoint, posterior inference can be made especially efficient by fitting an approximate inference model (also called a recognition model) to the intractable posterior using the proposed lower bound estimator. Theoretical advantages are reflected in experimental results.

研究动机与目标

为带有连续潜变量的有向概率模型提供高效的近似推断与学习。
在不进行昂贵的逐数据点推断的情况下处理不可解析的后验和大规模数据集。
引入重参数化技巧以为变分界带获得低方差梯度估计。
开发一个独立同分布数据集框架（AEVB），在训练生成模型的同时训练识别模型。
强调与自编码器的关系并在图像数据集上进行演示。

提出的方法

对边际似然的变分下界（ELBO）进行推导并将其分解为 KL 项与重构项。
通过将 z 重新参数化为 z = g_phi(epsilon, x) 来实现 SGVB 估计量，以获得可微分的蒙特卡罗估计。
展示两种 SGVB 变体：（A）通用估计量与（B）带较低方差梯度的 KL 正则化估计量。
提出 AEVB 算法，使用小批量随机梯度上升同时学习识别模型 q_phi(z|x) 和生成模型 p_theta(x|z)。
对于连续潜变量，实现基于神经网络的编码器 q_phi(z|x)（高斯形式）和高斯先验 p_theta(z)，在可能之处实现闭式 KL。
扩展到小批量训练（N 数据、M 小批量）并利用 Adagrad/SGD 进行优化。

实验结果

研究问题

RQ1当后验分布不可解析时，是否可以在带有连续潜变量的有向模型中进行高效推断与学习？
RQ2对变分下界进行重参数化是否会产生可微且低方差的梯度估计，适用于随机优化？
RQ3是否可以将近似推断模型（识别模型）与生成模型联合训练，以实现对逐数据点的快速推断（AEVB）？
RQ4相对于现有的在线学习方法（如 wake-sleep 或 MCEM），变分自编码器框架在实际数据集（如 MNIST、Frey Face）上的表现如何？

主要发现

SGVB 估计量提供一个可微且无偏的下界估计量，能够用标准的随机梯度进行优化。
使用识别模型 q_phi(z|x) 和重参数化可以实现对逐数据点的高效推断与学习，产生一个 AEVB 算法。
KL 项起到正则化作用，而重构项通过采样估计，通常每个数据点仅需要 L=1 次采样。
AEVB 可以通过小批量训练来扩展到大规模数据集，在实验中实现更快的收敛和比 wake-sleep 更好的下界。
在 MNIST 和 Frey Face 的实验表明，更多的潜变量并不一定会由于变分正则化而带来负面影响（也可能有帮助），而 AEVB 实现了具有竞争力的下界和边际似然估计。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。