QUICK REVIEW

[论文解读] DVAE++: Discrete Variational Autoencoders with Overlapping Transformations

Arash Vahdat, William G. Macready|arXiv (Cornell University)|Feb 14, 2018

Generative Adversarial Networks and Image Synthesis参考文献 39被引用 25

一句话总结

DVAE++ 为离散变分自编码器引入了重叠平滑变换，通过解析变分界实现了使用全局玻尔兹曼机先验的高效训练。该方法通过结合离散全局潜变量与分层连续局部变量，在二值化图像数据集上实现了最先进的对数似然性能，优于 Gumbel-Softmax 和先前的离散 VAE。

ABSTRACT

Training of discrete latent variable models remains challenging because passing gradient information through discrete units is difficult. We propose a new class of smoothing transformations based on a mixture of two overlapping distributions, and show that the proposed transformation can be used for training binary latent models with either directed or undirected priors. We derive a new variational bound to efficiently train with Boltzmann machine priors. Using this bound, we develop DVAE++, a generative model with a global discrete prior and a hierarchy of convolutional continuous variables. Experiments on several benchmarks show that overlapping transformations outperform other recent continuous relaxations of discrete latent variables including Gumbel-Softmax (Maddison et al., 2016; Jang et al., 2016), and discrete variational autoencoders (Rolfe 2016).

研究动机与目标

为解决由于不可微离散单元导致的离散潜变量模型训练挑战。
开发一种支持有向和无向先验（包括玻尔兹曼机）的连续松弛方法。
为 RBM 先验推导一种解析变分界，避免先前工作中复杂的梯度处理。
设计一种分层 VAE 架构（DVAE++），用于建模图像中的全局离散因子和局部连续特征。
通过仅使用二值全局潜变量，在基准数据集上展示最先进的生成性能。

提出的方法

提出一类基于两个具有共享支撑集的重叠分布混合的新平滑变换。
使用指数或逻辑混合成分定义伯努利变量的连续松弛。
推导一种新变分界，使使用自动微分训练具有玻尔兹曼机先验的模型成为可能。
引入 DVAE++，一种具有全局 RBM 先验和卷积连续局部潜变量的分层 VAE，用于建模平滑的局部特征。
采用无条件解码器和重要性加权估计进行对数似然评估。
使用具有 1–4 层的分层推理网络建模全局潜变量，每个空间位置包含 16 层共 32 个连续变量。

实验结果

研究问题

RQ1重叠平滑变换是否能在有向和无向先验模型中有效实现通过离散潜变量的反向传播？
RQ2所提出的 RBM 先验解析变分界是否消除了先前工作中所需的特殊梯度处理？
RQ3具有全局离散先验和局部连续潜变量的 VAE 是否能在标准图像基准上实现最先进的对数似然性能？
RQ4在似然性和解耦性方面，DVAE++ 与 Gumbel-Softmax 及其他离散 VAE 的性能相比如何？
RQ5当移除局部连续潜变量时，全局离散先验的贡献是什么？

主要发现

在静态二值化 MNIST 上，DVAE++ 使用无条件解码器实现测试集对数似然为 -79.72；在动态二值化 MNIST 上为 -79.55。
在 CIFAR10 上，DVAE++ 使用条件解码器实现对数似然为 -79.90，优于先前的离散 VAE。
即使移除所有连续局部潜变量，DVAE++ 仍能实现接近 SOTA 的对数似然，证明了全局 RBM 先验的强大能力。
采用 RBM 先验和指数混合成分的模型优于使用 Rolfe（2016）方法训练的相同架构，后者需要复杂的梯度处理。
从 DVAE++ 生成的样本表明，全局离散潜变量捕捉了语义上有意义的因子，如数字类别和场景配置。
解析变分界实现了高效的优化，无需控制变量或特殊梯度处理，简化了训练过程。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。