QUICK REVIEW

[论文解读] Generating Diverse High-Fidelity Images with VQ-VAE-2

Ali Razavi, Aäron van den Oord|arXiv (Cornell University)|Jun 2, 2019

Generative Adversarial Networks and Image Synthesis参考文献 35被引用 106

一句话总结

两阶段层次结构：用 VQ-VAE 学习离散潜在码，然后用强大的自回归先验（带自注意力的 PixelCNN）对其建模，以在大尺度上生成高保真、多样化的图像。

ABSTRACT

We explore the use of Vector Quantized Variational AutoEncoder (VQ-VAE) models for large scale image generation. To this end, we scale and enhance the autoregressive priors used in VQ-VAE to generate synthetic samples of much higher coherence and fidelity than possible before. We use simple feed-forward encoder and decoder networks, making our model an attractive candidate for applications where the encoding and/or decoding speed is critical. Additionally, VQ-VAE requires sampling an autoregressive model only in the compressed latent space, which is an order of magnitude faster than sampling in the pixel space, especially for large images. We demonstrate that a multi-scale hierarchical organization of VQ-VAE, augmented with powerful priors over the latent codes, is able to generate samples with quality that rivals that of state of the art Generative Adversarial Networks on multifaceted datasets such as ImageNet, while not suffering from GAN's known shortcomings such as mode collapse and lack of diversity.

研究动机与目标

提出并演示一种可扩展的、基于似然的高分辨率图像生成方法，其质量与多样性可与 GANs 相媲美。
利用分层 VQ-VAE 将图像压缩为离散潜在表示，从而在潜在空间实现高效的自回归建模。
证明在潜在空间的采样对大图像相比像素空间的采样要显著更快。

提出的方法

训练一个两级层次的 VQ-VAE，将 256x256 的图像编码为离散潜在变量，底层为 64x64，顶层为 32x32。
用共享代码本对编码器输出进行量化，并用包含代码本和承诺项的 VQ-VAE 损失进行优化；使用指数滑动平均更新代码本。
使用带自注意力的 PixelCNN 在离散潜在变量上拟合强大的自回归先验：对 32x32 潜在变量的顶层先验（全局结构）和对 64x64 潜在变量的底层先验（局部细节），条件于顶层潜在变量。
将先验条件化为类别标签；在顶层使用多头自注意力，在底层使用一个大的条件堆栈，以捕获长程和局部依赖。
进行基于分类器的拒绝采样，以权衡多样性和样本质量（使用预训练的 ImageNet 分类器进行评估）。
使用负对数似然和重构误差、精确率/召回率权衡、CAS，以及 FID/IS 指标进行评估，并与 BigGAN-deep 和重构结果进行比较。

实验结果

研究问题

RQ1带自回归先验的分层 VQ-VAE 是否能够在大分辨率下生成高保真、全局一致的图像？
RQ2在离散潜在空间建模是否比像素空间的自回归模型提供更快的采样和更好的多样性？
RQ3在质量和多样性方面，与 ImageNet 和 FFHQ 等数据集上的最先端 GAN 相比，所提出的方法表现如何？
RQ4基于分类器的拒绝采样是否可以在不发生 SGD 训练不稳定性情况下提供可控的多样性-质量权衡？

主要发现

在 ImageNet（256x256）上的类别条件样本达到高保真度，质量与最先进的 GAN 相当。
分层潜在表示的方法产生广泛的多样性，定性对比显示在若干类别上保真度相当且多样性高于 BigGAN-deep。
定量指标表明具有强泛化性（训练/验证的 NLL 接近），并且通过拒绝采样的精确度-召回率提高了质量（精度）和多样性（召回）。
CAS 结果显示 VQ-VAE 重构加分类器评估在其设置中比 BigGAN-deep 的 top-1 和 top-5 准确率更高（真实数据更高）。
在 FFHQ-1024 上，三层层次结构捕捉了长程依赖（例如眼睛颜色匹配），并在高分辨率下呈现出逼真的人脸。
总体而言，在潜在空间的自回归建模为大规模、高保真图像生成提供了一条简单而有效的路径，具有比 GAN 更广泛的多样性，并减轻模式崩溃问题。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。