Skip to main content
QUICK REVIEW

[论文解读] Diagnosing and Enhancing VAE Models

Bin Dai, David Wipf|arXiv (Cornell University)|Mar 14, 2019
Generative Adversarial Networks and Image Synthesis参考文献 42被引用 95
一句话总结

本文分析 Gaussian VAE 假设,给出在何种条件下可以恢复真实分布,以及提出一个简单的两阶段 VAE 增强,能在不额外调参的情况下获得清晰样本和具有竞争力的 FID。

ABSTRACT

Although variational autoencoders (VAEs) represent a widely influential deep generative model, many aspects of the underlying energy function remain poorly understood. In particular, it is commonly believed that Gaussian encoder/decoder assumptions reduce the effectiveness of VAEs in generating realistic samples. In this regard, we rigorously analyze the VAE objective, differentiating situations where this belief is and is not actually true. We then leverage the corresponding insights to develop a simple VAE enhancement that requires no additional hyperparameters or sensitive tuning. Quantitatively, this proposal produces crisp samples and stable FID scores that are actually competitive with a variety of GAN models, all while retaining desirable attributes of the original VAE architecture. A shorter version of this work will appear in the ICLR 2019 conference proceedings (Dai and Wipf, 2019). The code for our model is available at https://github.com/daib13/ TwoStageVAE.

研究动机与目标

  • 研究 Gaussian 编码器/解码器假设如何影响 VAE 在不同流形维度下恢复真实分布的能力。
  • 刻画最优 VAE 解及潜在维度在学习数据流形与流形内分布中的作用。
  • 提出一种实用的两阶段 VAE 增强,用以解决非唯一性并在不额外调参的情况下提升样本质量。
  • 证明在中性测试条件下,两阶段方法可以产生高质量样本和稳定的 FID 分数。

提出的方法

  • 定义一个 kappa-simple VAE,其高斯编码器 q_phi(z|x) 和高斯解码器 p_theta(x|z)。
  • 证明当流形维度等于环境空间维度 (r=d) 时,存在一组参数序列在某些条件下能够同时优化 VAE 目标并恢复真实分布。
  • 表明当 r<d 时,最优解可以实现目标的最小化而不必在流形内唯一地恢复真实分布。
  • 揭示 VAE 倾向于偏好退化的潜在活动(少数激活维度),且当解码器方差 gamma 趋近于零时重构项占主导。
  • 提出一个两阶段 VAE:第一阶段在最小激活潜在变量的前提下学习低维流形,第二阶段学习潜在编码的分布以与标准高斯先验对齐。

实验结果

研究问题

  • RQ1在 r=d 的情况下,Gaussian VAE 假设是否能够恢复真实分布,且需要哪些条件?
  • RQ2在 r<d 下,全局最优解的唯一性与学习到的真实流形有何含义?
  • RQ3如何解决非唯一性和潜在匹配差问题,以在不额外调参的情况下提升样本质量?
  • RQ4在中性条件下,简单的两阶段 VAE 是否能达到与 GAN 相当的清晰样本和稳定的 FID?

主要发现

  • 一个 kappa-simple VAE,若 kappa >= r,在满足适当条件时可以全局优化目标并在 r=d 时恢复真实分布。
  • 对于 r<d,最优解可以将目标函数推至负无穷大,同时匹配流形质量,但不一定在流形内重现 mu_gt。
  • 最优解表现出退化的潜在活动,即只有 r 个激活维度,且解码器方差 gamma 趋近于零以最小化目标,从而影响重建行为。
  • 引入一个两阶段 VAE 可在第一阶段恢复流形的良好潜在表示,随后在第二阶段学习该中间编码上的正确分布。
  • 实验表明,两阶段方法在中性测试下能产生清晰样本和稳定的 FID 分数,堪比 GAN,且无需额外惩罚项或调参。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。