Skip to main content
QUICK REVIEW

[论文解读] Lagging Inference Networks and Posterior Collapse in Variational Autoencoders

Junxian He, Daniel Spokoyny|arXiv (Cornell University)|Jan 16, 2019
Generative Adversarial Networks and Image Synthesis参考文献 30被引用 127
一句话总结

这篇论文将 VAE 的后验塌缩视为训练动力学问题,原因是推断网络滞后,并引入一种简单、激进的推断更新策略,在不改变模型的情况下减轻塌缩,提高保留似然和训练速度。

ABSTRACT

The variational autoencoder (VAE) is a popular combination of deep latent variable model and accompanying variational learning technique. By using a neural inference network to approximate the model's posterior on latent variables, VAEs efficiently parameterize a lower bound on marginal data likelihood that can be optimized directly via gradient methods. In practice, however, VAE training often results in a degenerate local optimum known as "posterior collapse" where the model learns to ignore the latent variable and the approximate posterior mimics the prior. In this paper, we investigate posterior collapse from the perspective of training dynamics. We find that during the initial stages of training the inference network fails to approximate the model's true posterior, which is a moving target. As a result, the model is encouraged to ignore the latent encoding and posterior collapse occurs. Based on this observation, we propose an extremely simple modification to VAE training to reduce inference lag: depending on the model's current mutual information between latent variable and observation, we aggressively optimize the inference network before performing each model update. Despite introducing neither new model components nor significant complexity over basic VAE, our approach is able to avoid the problem of collapse that has plagued a large amount of previous work. Empirically, our approach outperforms strong autoregressive baselines on text and image benchmarks in terms of held-out likelihood, and is competitive with more complex techniques for avoiding collapse while being substantially faster.

研究动机与目标

  • 激励并理解为什么在具有强解码器的 VAE 中会发生后验塌缩。
  • 在早期训练阶段分析真实后验与近似后验的训练动力学。
  • 提出一种简单、激进的推断网络更新程序以减少推断滞后。
  • 显示该方法保持 ELBO 优化且不需要新的模型组件。
  • 在文本和图像基准上展示更快训练且具竞争力的密度估计表现。

提出的方法

  • 重新表述 ELBO,使之强调一致性项 D_KL(q_phi(z|x)||p_theta(z|x)) 与模型后验 p_theta(z|x)。
  • 使用低维空间中的后验均值轨迹可视化,识别后验滞后是塌缩的驱动因素。
  • 将激进的推断网络更新作为一个内部循环,在更新 theta 之前多次更新 phi,而不修改目标函数。
  • 使用在 q 下的互信息 I_q(z; x) 来决定何时停止激进更新,保持摊销。
  • 在显著提高推断网络更新频率的同时,保持标准 ELBO 优化。
  • 与自回归基线和先前的避免塌缩方法进行比较,突出训练时间效率。

实验结果

研究问题

  • RQ1为什么在具有强解码器的基本 VAE 训练中经常导致后验塌缩?
  • RQ2在不改变模型的情况下,训练动态的一个简单改变能否防止潜变量塌缩?
  • RQ3在训练早期激进地更新推断网络是否有助于模型利用潜在编码,同时保持 ELBO 的优化?
  • RQ4与现有的避免塌缩技术相比,所提方法在密度估计和训练效率方面的表现如何?

主要发现

  • 后验塌缩与早期训练中的推断网络滞后相关,推动模型忽略潜在变量。
  • 在每次生成器更新之前激进地更新推断网络,减少滞后,使轨迹走向利用潜在编码。
  • 该方法保持 ELBO 优化,在文本和图像基准上获得具竞争力或更优的保留似然。
  • 该方法需要适度额外的训练时间(相较于标准 VAE 2-3 倍),并显著快于 SA-VAE,同时避免塌缩。
  • 基于互信息的停止准则在滞后得到缓解后有效防止不必要的内部循环更新。
  • 在 Yahoo、Yelp、OMNIGLOT 的实验显示,与最先进方法相比性能相当,同时复杂度显著降低。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。