QUICK REVIEW

[论文解读] Spherical Latent Spaces for Stable Variational Autoencoders

Jiacheng Xu, Greg Durrett|arXiv (Cornell University)|Aug 31, 2018

Generative Adversarial Networks and Image Synthesis参考文献 22被引用 31

一句话总结

本文提出在变分自编码器（VAEs）的潜在空间中使用冯·米塞斯-费舍尔（vMF）分布替代多变量高斯分布进行文本建模，通过浓度参数 𝜅 固定KL散度。这种结构上的改变可防止KL崩溃，提升似然性能，并在RNN语言建模与词袋文档建模任务中均获得更有效、更具结构化的潜在表征。

ABSTRACT

A hallmark of variational autoencoders (VAEs) for text processing is their combination of powerful encoder-decoder models, such as LSTMs, with simple latent distributions, typically multivariate Gaussians. These models pose a difficult optimization problem: there is an especially bad local optimum where the variational posterior always equals the prior and the model does not use the latent variable at all, a kind of "collapse" which is encouraged by the KL divergence term of the objective. In this work, we experiment with another choice of latent distribution, namely the von Mises-Fisher (vMF) distribution, which places mass on the surface of the unit hypersphere. With this choice of prior and posterior, the KL divergence term now only depends on the variance of the vMF distribution, giving us the ability to treat it as a fixed hyperparameter. We show that doing so not only averts the KL collapse, but consistently gives better likelihoods than Gaussians across a range of modeling conditions, including recurrent language modeling and bag-of-words document modeling. An analysis of the properties of our vMF representations shows that they learn richer and more nuanced structures in their latent representations than their Gaussian counterparts.

研究动机与目标

解决文本VAE中持续存在的KL崩溃问题，即后验分布坍缩至先验，潜在变量被忽略。
通过使用vMF先验将KL散度结构化为固定超参数，克服标准VAE优化的脆弱性。
通过在稳定训练的同时更有效地利用潜在码，提升文本生成建模性能。
探究基于vMF的潜在空间是否能比高斯对应物捕捉更丰富的结构信息，尤其是词序信息。
证明固定 𝜅 值可在多种NLP建模设置中实现更鲁棒且可迁移的性能。

提出的方法

将标准多变量高斯先验替换为单位超球面上的冯·米塞斯-费舍尔（vMF）分布，由均值方向 𝝁 和浓度 𝜅 参数化。
将浓度参数 𝜅 固定为超参数，使后验与先验之间的KL散度独立于编码器输出，从而在结构上对崩溃免疫。
使用识别模型（编码器）将后验 qϕ(z|x) 推断为具有学习到的均值方向和固定 𝜅 的vMF分布。
通过修改贝塞尔函数实现vMF KL散度的可微梯度，端到端训练模型，使用标准VAE目标（ELBO）。
将vMF VAE应用于两类任务：基于RNN的语言建模与词袋文档建模，采用标准与无输入架构。
通过保留样本的对数似然与困惑度评估性能，并分析潜在表征对结构敏感性的表现（如对词序的敏感性）。

实验结果

研究问题

RQ1在vMF先验中固定浓度参数 𝜅 是否能防止文本VAE中的KL崩溃，从而避免潜在变量被忽略？
RQ2使用vMF先验是否能在多种文本建模任务与架构中持续获得比高斯VAE更优的似然性能？
RQ3基于vMF的潜在表征在捕捉词序等细微语言结构方面，与高斯表征相比表现如何？
RQ4vMF VAE的性能是否对 𝜅 的超参数选择具有鲁棒性？最优值是否可在不同建模设置间迁移？
RQ5端到端学习 𝜅 是否会重新引入KL崩溃问题？固定 𝜅 是否仍为更优的优化策略？

主要发现

在vMF先验中固定浓度参数 𝜅 可完全防止KL崩溃，因为KL散度成为与编码器输出无关的固定超参数。
在RNN语言建模与词袋文档建模任务中，vMF VAE在保留样本对数似然与困惑度方面显著优于高斯VAE。
即使KL散度值较高，固定 𝜅 的模型仍能实现更高的似然，表明潜在码被更有效地利用。
广泛的固定 𝜅 值范围（如10至100）均能实现优异性能，且最优值可在相似任务间迁移（如标准与无输入设置之间）。
端到端学习 𝜅 会重新引入KL崩溃，因为目标函数倾向于最小化 𝜅 值；此时需进行截断处理，且性能劣于固定 𝜅。
分析表明，vMF表征对词序更敏感，能捕捉比高斯对应物更丰富的结构信息，表明其对序列数据具有更优的归纳偏置。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。