Skip to main content
QUICK REVIEW

[论文解读] Improved Variational Autoencoders for Text Modeling using Dilated Convolutions

Zichao Yang, Zhiting Hu|arXiv (Cornell University)|Feb 26, 2017
Topic Modeling参考文献 23被引用 241
一句话总结

本论文表明,在文本的变分自编码器(VAE)中使用膨胀卷积神经网络解码器在解码器上下文容量得到仔细控制时,能够超过标准的 LSTM 语言模型,并展示对半监督分类和无监督聚类的好处。

ABSTRACT

Recent work on generative modeling of text has found that variational auto-encoders (VAE) incorporating LSTM decoders perform worse than simpler LSTM language models (Bowman et al., 2015). This negative result is so far poorly understood, but has been attributed to the propensity of LSTM decoders to ignore conditioning information from the encoder. In this paper, we experiment with a new type of decoder for VAE: a dilated CNN. By changing the decoder's dilation architecture, we control the effective context from previously generated words. In experiments, we find that there is a trade off between the contextual capacity of the decoder and the amount of encoding information used. We show that with the right decoder, VAE can outperform LSTM language models. We demonstrate perplexity gains on two datasets, representing the first positive experimental result on the use VAE for generative modeling of text. Further, we conduct an in-depth investigation of the use of VAE (with our new decoding architecture) for semi-supervised and unsupervised labeling tasks, demonstrating gains over several strong baselines.

研究动机与目标

  • 研究为何带 LSTM 解码器的文本 VAE 在性能上不如 LSTM,并找出在何种条件下 VAE 可以超过语言模型。
  • 提出一个膨胀卷积 CNN 解码器,以灵活控制可供解码器使用的上下文容量。
  • 在两个数据集上展示语言建模的改进,并使用所提解码器探索半监督与无监督文本任务。

提出的方法

  • 引入一个膨胀 CNN 解码器来替换文本建模中的 LSTM 解码器。
  • 通过膨胀模式和网络深度系统性地变化解码器的上下文容量,以研究对潜在变量的依赖。
  • 使用一个 LSTM 编码器来生成 q(z|x) 和高斯先验 p(z);将 z 与解码器输入拼接。
  • 用变分下界和 KL 退火进行训练,以防止后验塌缩。
  • 通过将编码器预训练为 LSTM 语言模型来提升 VAE 的性能。
  • 将该框架扩展到半监督分类和无监督聚类,使用 Gumbel-Softmax 处理离散标签。

实验结果

研究问题

  • RQ1具有可控上下文容量的膨胀 CNN 解码器是否能够使文本 VAE 超越 LSTM 语言模型?
  • RQ2解码器容量如何影响模型对潜在表示(KL项)的使用以及整体困惑度?
  • RQ3与强基线相比,膨胀 CNN VAE 是否对半监督文本分类和无监督聚类有益?

主要发现

  • 具有适当上下文容量的膨胀 CNN 解码器使 VAE 在两个数据集上超过 LSTM 语言模型。
  • 更小的有效上下文窗口促使解码器更多依赖潜在变量,增加 KL 并改善潜在表示。
  • 更大的解码器减少对潜在变量的依赖,削弱 VAE 的收益,极大的解码器的表现与纯 LM 基线相近。
  • 用预训练的 LSTM 语言模型参数初始化 VAE 编码器,在 NLL 和困惑度方面获得进一步提升。
  • 在半监督设置中,某些膨胀 CNN VAE(如 SCNN-VAE-Semi)在分类准确度上超过基线,尤其在标注数据有限时,编码器初始化也提升性能。
  • 在 Yahoo 数据的无监督聚类中,带初始化的 SCNN-VAE 相比使用 GMM 的基线取得显著提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。