QUICK REVIEW

[论文解读] Discrete Variational Autoencoders

Jason Tyler Rolfe|arXiv (Cornell University)|Sep 7, 2016

Generative Adversarial Networks and Image Synthesis参考文献 47被引用 44

一句话总结

本文提出离散变分自编码器（离散VAE），这是一种新型的概率模型，结合了无向离散潜在变量（通过受限玻尔兹曼机建模）与分层连续潜在变量。通过将适用于离散分布的重参数化技巧应用于反向传播，该方法实现了紧致的证据下界，并在排列不变的MNIST、Omniglot和Caltech-101轮廓数据集上优于最先进模型，以无监督方式学习到对象类别与像素级细节。

ABSTRACT

Probabilistic models with discrete latent variables naturally capture datasets composed of discrete classes. However, they are difficult to train efficiently, since backpropagation through discrete variables is generally not possible. We present a novel method to train a class of probabilistic models with discrete latent variables using the variational autoencoder framework, including backpropagation through the discrete latent variables. The associated class of probabilistic models comprises an undirected discrete component and a directed hierarchical continuous component. The discrete component captures the distribution over the disconnected smooth manifolds induced by the continuous component. As a result, this class of models efficiently learns both the class of objects in an image, and their specific realization in pixels, from unsupervised data, and outperforms state-of-the-art methods on the permutation-invariant MNIST, Omniglot, and Caltech-101 Silhouettes datasets.

研究动机与目标

解决在变分自编码器框架中训练具有离散潜在变量的概率模型的挑战，该框架传统上无法支持对离散变量的反向传播。
通过将离散类别级因子与连续可变形实现分离，对由多个不连通光滑流形组成的数据集（如不同对象类别的图像）进行建模。
开发一种方法，在离散潜在变量模型中后验推断不可解的情况下，仍能保持紧致的证据下界（ELBO）。
通过分层后验近似，实现对具有离散和连续潜在变量的模型进行高效端到端训练。
在无监督表示学习基准上展示优越性能，特别是在同时捕捉对象身份与精细视觉变化方面。

提出的方法

模型架构由一个双部受限玻尔兹曼机（RBM）作为离散潜在层，后接多层连续潜在变量构成，形成分层生成模型。
采用分层后验近似以建模离散潜在变量之间的强相关性，确保证据下界（ELBO）的紧致性。
通过使用条件-边缘分布的逆累积分布函数，将重参数化技巧适配于离散分布，以实现对离散样本的梯度估计。
通过将均匀随机变量可微分地变换为离散潜在状态，计算反向梯度，从而实现对离散层的反向传播。
在生成过程中，使用持久马尔可夫链从RBM先验中采样，以实现稳定模式探索和样本间模式一致性。
通过随机优化ELBO进行模型训练，其中自编码项通过重参数化采样计算，KL项则通过解析计算或近似方法获得。

实验结果

研究问题

RQ1能否在变分自编码器框架中有效应用反向传播于离散潜在变量？
RQ2分层后验近似是否能在具有离散潜在变量的模型中维持紧致的证据下界？
RQ3结合离散与连续潜在变量的混合模型是否能联合捕捉无监督学习中对象类别与细粒度视觉变化？
RQ4该模型在具有多个不连通流形的数据集（如MNIST、Omniglot和Caltech-101轮廓）上的泛化能力如何？
RQ5该模型是否能在无监督条件下学习到在离散潜在空间中分离良好、可解释的模式，对应于不同的对象类别？

主要发现

在使用200个二值潜在变量的静态二值化MNIST数据集上，离散VAE实现了-97.0的负对数似然，优于先前模型。
在Omniglot数据集上，模型在RBM先验中学习到了明显分离的模式，100次Gibbs采样步骤后生成结果一致呈现数字形态。
在Caltech-101轮廓数据集上，模型识别出对应于大而凸形状的独立模式，即使没有类别标签。
该模型表明，对RBM先验进行持久Gibbs采样可揭示稳定、多模态的结构，表明离散潜在空间捕捉到了有意义的对象类别。
与因子化后验相比，分层后验近似显著提升了ELBO的紧致性，尤其在建模离散变量间的复杂依赖关系方面。
该方法实现了对具有离散潜在变量的模型进行端到端反向传播训练，克服了离散分布变分推断中的一个主要限制。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。