QUICK REVIEW

[论文解读] Very Deep VAEs Generalize Autoregressive Models and Can Outperform Them on Images

Rewon Child|arXiv (Cornell University)|Nov 20, 2020

Advanced Neural Network Applications参考文献 34被引用 79

一句话总结

该论文提出一个非常深的分层VAE，当深度超过以往，在 CIFAR-10、ImageNet 变体和 FFHQ 的高维图像上，在对数似然上超越基于 PixelCNN 的自回归模型，同时使用更少的参数并实现更快采样。

ABSTRACT

We present a hierarchical VAE that, for the first time, generates samples quickly while outperforming the PixelCNN in log-likelihood on all natural image benchmarks. We begin by observing that, in theory, VAEs can actually represent autoregressive models, as well as faster, better models if they exist, when made sufficiently deep. Despite this, autoregressive models have historically outperformed VAEs in log-likelihood. We test if insufficient depth explains why by scaling a VAE to greater stochastic depth than previously explored and evaluating it CIFAR-10, ImageNet, and FFHQ. In comparison to the PixelCNN, these very deep VAEs achieve higher likelihoods, use fewer parameters, generate samples thousands of times faster, and are more easily applied to high-resolution images. Qualitative studies suggest this is because the VAE learns efficient hierarchical visual representations. We release our source code and models at https://github.com/openai/vdvae.

研究动机与目标

激发研究在使用深度堆叠的潜变量时，变分自编码器是否能够匹配或超越自然图像的自回归模型。
提出并验证一种可以扩展到多层随机变量的极深的分层VAE体系结构。
在 CIFAR-10、ImageNet（32/64）及 FFHQ 变体上，实证比较对数似然和相对于 PixelCNN/PixelCNN++ 基线的效率。
展示深度如何启用高效的分层表示并实现并行化生成，从而实现更快的采样。

提出的方法

将 N 层 VAE 的先验和后验进行自顶向下分解来形式化（p(z)=p(z0)p(z1|z0)…; q(z|x)=q(z0|x)q(z1|z0,x)…）。
论证并证明当 N 等于数据维度时，N 层 VAE 广义自回归模型，并且能够普遍近似 N 维潜在密度。
引入一种极深的 VAE 架构，包含瓶颈残差块、对角高斯先验/后验，以及残差缩放（1/√N）来稳定深层训练。
为反池化使用最近邻上采样以避免后验塌陷，并移除 KL 预热/自由比特等要求。
采用梯度跳跃启发式来稳定训练，避免深层训练中的发散更新。
在 CIFAR-10、ImageNet-32、ImageNet-64、FFHQ-256 和 FFHQ-1024 上进行训练和评估，并将对数似然与自回归基线进行比较。

实验结果

研究问题

RQ1当 VAEs 足够深时，是否能够在图像对数似然上匹配或超越自回归模型？
RQ2增加随机深度（潜在层的深度）是否在不增加总参数量的情况下提升 VAE 性能？
RQ3极深层的 VAE 是否能够学习高效的分层表示，从而实现并行化生成和更快的采样？
RQ4与基于 PixelCNN 的模型相比，极深的 VAE 如何扩展到高分辨率图像？

主要发现

极深层 VAE 在 CIFAR-10、ImageNet-32、ImageNet-64、FFHQ-256 和 FFHQ-1024 上实现高于基于 PixelCNN 的模型的对数似然。
深度带来的改进与模型容量无关，在类似参数量下，深层模型优于较浅的模型。
极深的 VAE 学会了高效的分层表示，使高分辨率下的许多潜在变量可以并行生成。
与基于 PixelCNN 的自回归模型相比，极深 VAE 使用更少的参数，采样速度可提升数千倍，同时扩展到更大的图像。
该体系结构能很好地扩展到 1024x1024 的图像，保持快速采样（单次前向传播），相对于需要多次评估的自回归对手。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。