Skip to main content
QUICK REVIEW

[论文解读] VAE with a VampPrior

Jakub M. Tomczak, Max Welling|arXiv (Cornell University)|May 19, 2017
Generative Adversarial Networks and Image Synthesis参考文献 24被引用 60
一句话总结

本论文提出 VampPrior,即一个变分后验驱动的先验(对可学习伪输入的后验混合),以及一个两层的层次 VAE,联合学习先验和后验以改善潜在表示并避免不活跃的潜在单元,在六个数据集上取得了强劲结果。

ABSTRACT

Many different methods to train deep generative models have been introduced in the past. In this paper, we propose to extend the variational auto-encoder (VAE) framework with a new type of prior which we call "Variational Mixture of Posteriors" prior, or VampPrior for short. The VampPrior consists of a mixture distribution (e.g., a mixture of Gaussians) with components given by variational posteriors conditioned on learnable pseudo-inputs. We further extend this prior to a two layer hierarchical model and show that this architecture with a coupled prior and posterior, learns significantly better models. The model also avoids the usual local optima issues related to useless latent dimensions that plague VAEs. We provide empirical studies on six datasets, namely, static and binary MNIST, OMNIGLOT, Caltech 101 Silhouettes, Frey Faces and Histopathology patches, and show that applying the hierarchical VampPrior delivers state-of-the-art results on all datasets in the unsupervised permutation invariant setting and the best results or comparable to SOTA methods for the approach with convolutional networks.

研究动机与目标

  • 通过使先验更灵活并与变分后验更好地对齐来激发和改进VAEs。
  • 介绍 VampPrior:一个由基于可学习伪输入条件化的后验形成的多模态先验。
  • 提出一个两层层次化 VAE 以缓解不活跃的隐变量并提升表示质量。
  • 在多样的数据集和架构上展示相对于标准正态先验的经验提升。

提出的方法

  • 推导 VAEs 的 ELBO,并将其重新解读为重构项加上正则化成分。
  • 提出 VampPrior:p(z) = (1/K) sum_k q_phi(z|u_k),其中 u_k 是与编码器 q_phi 绑定的可学习伪输入。
  • 将先验与后验耦合以促进联合优化和更丰富的潜在结构。
  • 扩展为一个包含 z1 和 z2 的两层 VAE,其中 p(z1|z2) 和 p(z2) 遵循 VampPrior,q_phi(z1|x,z2),q_psi(z2|x) 定义近似后验。
  • 探索替代先验(SG、MoG、VampPrior data)用于消融研究。
  • 在六个图像数据集上,使用基于 MLP 和 CNN 的编码器/解码器进行评估,包括 PixelCNN 解码器。

实验结果

研究问题

  • RQ1VampPrior 是否相对于标准正态先验在潜在表示质量和生成性能上有所提升?
  • RQ2具有 VampPrior 的两层层次 VAE 是否缓解不活跃的随机变量并在各数据集上优于单层 VAE?
  • RQ3与 MoG 先验和数据固定伪输入相比,VampPrior 在性能和学习动力学方面有何不同?
  • RQ4在使用卷积架构和带有 VampPrior 的自回归解码器时,对基准图像数据集有何影响?

主要发现

  • VampPrior 在多种架构和数据集上重复提高测试对数似然相对于标准正态先验。
  • 层次 VampPrior VAE 在静态 MNIST、动态图像 MNIST、OMNIGLOT、Caltech 101 Silhouettes 上实现了最先进的结果,在其他数据集上也具有竞争力,特别是配合强大解码器时。
  • VampPrior 增加了第二层的活跃随机单元数量,解决了深层 VAEs 的不活跃单元问题。
  • 学习到的伪输入往往收敛为原型对象,但产生多样的特征变体,表明表示有意义且非记忆化。
  • 与 MoG 和 SG 先验相比,耦合后验的 VampPrior 在 ELBO 和生成质量上优于;随机伪输入(VampPrior data)灵活性较低。
  • 使用卷积编码器/解码器和带 VampPrior 的 PixelCNN 解码器,在非自回归和自回归 VAE 中于测试数据集取得了较好的结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。