QUICK REVIEW

[论文解读] BIVA: A Very Deep Hierarchy of Latent Variables for Generative Modeling

Lars Maaløe, M. Fraccaro|arXiv (Cornell University)|Feb 6, 2019

Generative Adversarial Networks and Image Synthesis参考文献 60被引用 71

一句话总结

BIVA 引入了一个非常深层的随机潜变量层级，具有双向推断网络和一个确定性的自顶向下路径，取得强大的似然性、清晰的图像生成、异常检测和半监督分类。

ABSTRACT

With the introduction of the variational autoencoder (VAE), probabilistic latent variable models have received renewed attention as powerful generative models. However, their performance in terms of test likelihood and quality of generated samples has been surpassed by autoregressive models without stochastic units. Furthermore, flow-based models have recently been shown to be an attractive alternative that scales well to high-dimensional data. In this paper we close the performance gap by constructing VAE models that can effectively utilize a deep hierarchy of stochastic variables and model complex covariance structures. We introduce the Bidirectional-Inference Variational Autoencoder (BIVA), characterized by a skip-connected generative model and an inference network formed by a bidirectional stochastic inference path. We show that BIVA reaches state-of-the-art test likelihoods, generates sharp and coherent natural images, and uses the hierarchy of latent variables to capture different aspects of the data distribution. We observe that BIVA, in contrast to recent results, can be used for anomaly detection. We attribute this to the hierarchy of latent variables which is able to extract high-level semantic features. Finally, we extend BIVA to semi-supervised classification tasks and show that it performs comparably to state-of-the-art results by generative adversarial networks.

研究动机与目标

动机并拉近概率潜变量模型与自回归/流式模型在测试似然性和样本质量方面的性能差距。
提出一种新颖的 VAE 变体——BIVA——具有深层的随机潜变量层级、双向推断路径以及一个确定性的自顶向下通路。
通过消融研究演示该架构的优势，并在自然图像和二值图像、异常检测以及半监督分类任务上进行评估。
展示 BIVA 能够利用在潜变量层次中学习的高层语义特征进行异常检测。

提出的方法

引入一个深层分层的 VAE，其中每一层的潜变量被分为自下而上的和自上而下的组分(z_i = (z_i_BU, z_i_TD))。
增加一个确定性的自顶向下路径，提供跳连以改善信息流动并减少潜变量塌陷。
使用一个双向推断网络，包含自下而上的随机性路径和自上而下的随机性路径，与生成模型共享参数，从而形成灵活的后验 q_phi(z|x)。
在每一层对潜变量进行因子化，以实现自下而上的随机推断，并在没有辅助变量的情况下实现更高层的协方差学习。
通过对重参数化的 ELBO 最大化进行训练，并辅以 free-bits 策略以缓解早期潜变量塌陷；对于异常检测，使用一个分层下界 L^{>k}，从变分后验采样顶层，从条件先验采样底层。
描述该模型在异常检测中的适用性以及通过引入一个类变量 y，在给定 z 和 y 的条件下实现条件 x 的半监督扩展。

实验结果

研究问题

RQ1在标准基准上，BIVA 是否在测试对数似然和样本质量方面超越自回归和基于流的模型？
RQ2BIVA 的潜变量层次能否捕捉对异常检测有用的高层语义特征？
RQ3双向推断路径和确定性的自顶向下连接如何有助于避免潜变量塌陷？
RQ4是否可以将 BIVA 扩展为具有竞争性能的半监督分类？
RQ5深层级 L 层次结构及 BU/TD 因子化对学习到的表示和下游任务有何影响？

主要发现

BIVA 在若干基准上达到最先进或具有竞争力的测试似然性，优于非自回归潜变量模型，在某些设置中接近自回归模型。
在二值 MNIST 任务上，BIVA 在 L1 和 L1e3 设置下获得较强的对数似然性，微调相较于之前的潜变量方法带来进一步改进。
对于自然图像，BIVA 采用 L=15（及高达 L=20 的变体）在 CIFAR-10 上提供具有竞争力的每维比特数，超过了许多基于流的和非自回归模型，尽管在某些情况下自回归模型仍可领先。
使用更高层潜变量(L^{>k})的基于层次结构的异常检测方法相比标准的 ELBO 基方法，在分布内外数据的分离方面表现更好，表明模型具备编码高层语义的能力。
引入类变量 y 的半监督扩展，在 MNIST 上实现具有竞争力的分类性能，与当代的基于 GAN 的方法相当。
在 CelebA 上从 BIVA 先验 (N(0, I)) 生成的定性样本看起来清晰连贯，表明生成质量优于先前的潜变量模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。