QUICK REVIEW

[论文解读] Tutorial on Variational Autoencoders

Carl Doersch|arXiv (Cornell University)|Jun 19, 2016

Generative Adversarial Networks and Image Synthesis参考文献 25被引用 1,372

一句话总结

这个教程介绍变分自编码器（VAEs），通过变分贝叶斯推导其目标函数，解释用于训练的重参数化技巧，并拓展到条件变分自编码器（CVAE）以实现一对多映射，同时展示 MNIST 演示。

ABSTRACT

In just three years, Variational Autoencoders (VAEs) have emerged as one of the most popular approaches to unsupervised learning of complicated distributions. VAEs are appealing because they are built on top of standard function approximators (neural networks), and can be trained with stochastic gradient descent. VAEs have already shown promise in generating many kinds of complicated data, including handwritten digits, faces, house numbers, CIFAR images, physical models of scenes, segmentation, and predicting the future from static images. This tutorial introduces the intuitions behind VAEs, explains the mathematics behind them, and describes some empirical behavior. No prior knowledge of variational Bayesian methods is assumed.

研究动机与目标

促使生成建模和复杂分布的无监督学习。
解释 VAEs 如何使用潜变量来捕捉数据结构，而无需手工特征。
给出一个可行的训练目标，结合重构和正则化。
介绍重参数化技巧，以实现基于梯度的优化。

提出的方法

将 P(X) 定义为对潜变量 z 的积分，并引入带高斯似然的 P(X|z)。
引入 Q(z|X) 来近似不可解的 P(z|X) 并推导证据下界（ELBO）。
显示 ELBO 如何分解为重构项和 KL 散度正则项。
使用重参数化技巧通过随机采样反向传播：z = μ(X) + Σ^{1/2}(X) ε 其中 ε ~ N(0,I)。
采用对角 Σ 的高斯 Q(z|X) 并以闭式形式计算 KL 项。
通过对输入 X 条件化生成过程来建模 P(Y|X)，扩展到条件变分自编码器（CVAE）。
展示在测试时通过采样 z ~ N(0,I) 并解码而无需编码器。

实验结果

研究问题

RQ1如何在不需要显式后验计算的情况下训练具有潜变量的生成模型？
RQ2如何计算并优化一个可解的目标，使其近似数据似然？
RQ3重参数化技巧如何使 VAEs 具备基于梯度的学习？
RQ4如何将 VAEs 扩展以处理条件性的一对多映射（CVAE）？

主要发现

VAEs 最大化数据似然的可解下界，在重构质量与潜在正则化之间取得平衡。
重参数化技巧使对随机潜变量进行反向传播成为可能，使通过 SGD 进行训练成为可行。
一个对高斯近似后验 Q(z|X) 与 P(z) 的闭式 KL 汇总，给出可计算的目标。
该框架自然与最小描述长度和信息论解释相关联。
CVAEs 将 VAEs 扩展到条件生成，给定输入 X 时能够产生多模态输出。
测试时从 z ~ N(0,I) 采样并解码可产生新的数据，无需使用编码器。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。