QUICK REVIEW

[论文解读] Variational Lossy Autoencoder

Xi Chen, Diederik P. Kingma|arXiv (Cornell University)|Nov 8, 2016

Generative Adversarial Networks and Image Synthesis被引用 257

一句话总结

本论文提出 Variational Lossy Autoencoder (VLAE)，一种通过自回归先验和解码器来控制信息放置的 VAE 模型，从而实现有损的全局表示，并在若干图像数据集上达到最先进的密度估计。

ABSTRACT

Representation learning seeks to expose certain aspects of observed data in a learned representation that's amenable to downstream tasks like classification. For instance, a good representation for 2D images might be one that describes only global structure and discards information about detailed texture. In this paper, we present a simple but principled method to learn such global representations by combining Variational Autoencoder (VAE) with neural autoregressive models such as RNN, MADE and PixelRNN/CNN. Our proposed VAE model allows us to have control over what the global latent code can learn and , by designing the architecture accordingly, we can force the global latent code to discard irrelevant information such as texture in 2D images, and hence the VAE only "autoencodes" data in a lossy fashion. In addition, by leveraging autoregressive models as both prior distribution $p(z)$ and decoding distribution $p(x|z)$, we can greatly improve generative modeling performance of VAEs, achieving new state-of-the-art results on MNIST, OMNIGLOT and Caltech-101 Silhouettes density estimation tasks.

研究动机与目标

通过强制潜在编码捕捉长程结构，同时由自回归解码器建模局部细节，学习全局、解耦表示。
研究为什么具有强大解码器的 VAEs 往往忽略潜变量，以及如何通过信息放置策略来缓解这一问题。
提出两种互补的增强——通过受限自回归解码实现的显式信息放置以及一个学习的自回归先验，以同时改进表示和密度估计。
在二值图像数据集上评估 VLAE 以评估全局结构的有损编码以及密度估计性能。
展示相对于先前的 VAE 的改进，并在 CIFAR-10 上结合自回归组件达到具有竞争性的结果。

提出的方法

将 Variational Autoencoders 与神经自回归模型相结合，形成 VLAE。
使用一个小感受野的解码分布 p(x|z)，以将全局信息强加到 z，从而实现数据的有损表示。
约束自回归解码器使其只能建模局部统计量，将长程结构推入潜在代码。
将先验 p(z) 参数化为自回归流（AF），等价于编码路径中的逆自回归流（IAF）后验，生成模型表达能力更强且无需额外训练成本。
可选地使用自回归解码器（PixelCNN）以改进密度估计。
利用 Bits-Back Coding 的解释来分析何时使用潜在代码 z，并推动信息放置策略。

实验结果

研究问题

RQ1VLAE 是否能够学习将全局统计量编码在图像中的有损编码？
RQ2用 AF 先验替代等效 IAF 后验是否会改善密度估计和潜变量利用？
RQ3使用自回归解码分布是否比非自回归解码器在密度估计性能上更优？
RQ4自回归解码器的受限感受域大小如何影响信息存储在 z 中？
RQ5VLAE 在标准图像基准（MNIST、OMNIGLOT、Caltech silhouettes、CIFAR-10）上是否具有竞争力或优于先前的最先进密度模型？

主要发现

VLAE 学习有损表示，其中全局结构被编码到潜在编码中，而局部纹理由自回归解码器建模。
AF 先验在对统计二值化的 MNIST 上的负对数似然（negative log-likelihood）方面优于等效 IAF 后验，表明来自 AF 先验的更深的生成模型是有益的。
在 MNIST、OMNIGLOT、Caltech-101 Silhouettes 数据集上，使用 AF 先验的自回归解码器（PixelCNN）可获得最先进或具有竞争力的密度估计。
在 CIFAR-10 上，带 DenseNet 主干的 VLAE 达到具有竞争力的似然，超越了若干先前的变分模型，并接近 PixelCNN++ 的性能。
PixelCNN 解码器的感受野大小影响潜在编码在全局与局部信息之间的编码程度；较小的场域保留更多局部细节在 z 中，较大域将更多结构转移到 z。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。