Skip to main content
QUICK REVIEW

[论文解读] The Usual Suspects? Reassessing Blame for VAE Posterior Collapse

Bin Dai, Ziyu Wang|arXiv (Cornell University)|Dec 23, 2019
Gaussian Processes and Bayesian Inference参考文献 35被引用 28
一句话总结

本文挑战了传统观点,即KL正则化是VAE后验坍塌的主要原因,表明深层自编码器损失曲面中的不良局部极小值才是关键驱动因素。研究证明,即使对仿射VAE解码器施加微小的非线性扰动,也会引发坍塌,且在某些条件下,更深的模型可能作为激进的截断器,丢弃所有潜在信息。

ABSTRACT

In narrow asymptotic settings Gaussian VAE models of continuous data have been shown to possess global optima aligned with ground-truth distributions. Even so, it is well known that poor solutions whereby the latent posterior collapses to an uninformative prior are sometimes obtained in practice. However, contrary to conventional wisdom that largely assigns blame for this phenomena on the undue influence of KL-divergence regularization, we will argue that posterior collapse is, at least in part, a direct consequence of bad local minima inherent to the loss surface of deep autoencoder networks. In particular, we prove that even small nonlinear perturbations of affine VAE decoder models can produce such minima, and in deeper models, analogous minima can force the VAE to behave like an aggressive truncation operator, provably discarding information along all latent dimensions in certain circumstances. Regardless, the underlying message here is not meant to undercut valuable existing explanations of posterior collapse, but rather, to refine the discussion and elucidate alternative risk factors that may have been previously underappreciated.

研究动机与目标

  • 重新审视VAE后验坍塌的根本原因,挑战将KL散度正则化视为主要责任的主流叙事。
  • 探究深层自编码器架构损失曲面上的局部极小值是否本质上会导致后验坍塌。
  • 分析解码器架构中的非线性如何引发病态的优化行为,即使在其他方面设定良好的模型中也是如此。
  • 证明在更深的模型中,VAE可能表现为截断算子,丢弃所有潜在维度的信息。
  • 通过识别优化曲面中被低估的风险因素,对现有后验坍塌解释进行完善。

提出的方法

  • 证明了对仿射VAE解码器模型施加微小的非线性扰动,可产生诱导后验坍塌的局部极小值。
  • 利用重参数化技巧的反向传播,分析VAE目标函数的梯度动态,重点关注编码器和解码器权重的梯度。
  • 推导出编码器参数(均值和方差)梯度消失的条件,即使解码器并非平凡。
  • 表明当解码器权重为零时,重构损失与特定潜在维度无关,导致这些维度的梯度为零。
  • 通过潜在变量的期望,证明由于对称性和零均值高斯先验,解码器权重的梯度可能因之消失。
  • 确立编码器梯度为零与重构损失不变性相结合,会导致稳定且无信息的后验坍塌。

实验结果

研究问题

  • RQ1是否可以在不依赖KL正则化的情况下,仅由VAE损失曲面中的局部极小值引起后验坍塌?
  • RQ2解码器架构中的非线性在多大程度上会引入病态的优化行为?
  • RQ3在何种条件下,VAE目标函数无法更新编码器参数,导致无信息后验?
  • RQ4深层VAE是否可能表现为激进的截断器,丢弃所有潜在维度的信息?
  • RQ5编码器中的梯度消失如何导致坍塌后验的持续存在?

主要发现

  • 对仿射VAE解码器模型施加微小的非线性扰动,可产生诱导后验坍塌的局部极小值,即使KL项表现良好。
  • 本文证明,当解码器无信息时,编码器参数(均值和方差)的梯度可能消失,导致无信息后验。
  • 在更深的模型中,VAE目标函数可能稳定在所有潜在维度均被丢弃的状态,表现为截断算子。
  • 当解码器权重为零时,重构损失与特定潜在维度无关,导致模型完全忽略这些维度。
  • 编码器中的梯度消失源于先验的零均值特性以及高斯分布的对称性,即使解码器并非平凡。
  • 分析表明,后验坍塌并非仅由KL正则化引起,也是深层自编码器优化曲面结构的结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。