Skip to main content
QUICK REVIEW

[论文解读] Topic-Guided Variational Autoencoders for Text Generation

Wenlin Wang, Zhe Gan|arXiv (Cornell University)|Mar 17, 2019
Topic Modeling参考文献 59被引用 57
一句话总结

提出 Topic-Guided Variational Autoencoder (TGVAE),其对潜在空间使用一个基于主题的高斯混合先验并结合 Householder 流,提升无条件和有条件文本生成的性能。在多个数据集上展示更优的困惑度(perplexity)/BLEU以及主题一致性。

ABSTRACT

We propose a topic-guided variational autoencoder (TGVAE) model for text generation. Distinct from existing variational autoencoder (VAE) based approaches, which assume a simple Gaussian prior for the latent code, our model specifies the prior as a Gaussian mixture model (GMM) parametrized by a neural topic module. Each mixture component corresponds to a latent topic, which provides guidance to generate sentences under the topic. The neural topic module and the VAE-based neural sequence module in our model are learned jointly. In particular, a sequence of invertible Householder transformations is applied to endow the approximate posterior of the latent code with high flexibility during model inference. Experimental results show that our TGVAE outperforms alternative approaches on both unconditional and conditional text generation, which can generate semantically-meaningful sentences with various topics.

研究动机与目标

  • 激励具主题感知的潜在表示以引导文本生成,超越简单高斯先验。
  • 将神经主题模型整合,以参数化潜在编码的高斯混合先验。
  • 通过 Householder 流减轻后验塌陷并增加后验的灵活性。
  • 展示在无条件生成与如抽象摘要等有条件任务中的改进。

提出的方法

  • 为潜在 z 指定一个高斯混合先验,其中每个分量通过神经主题模型 (NTM) 学得的主题对应。
  • 使用神经序列模型 (NSM) 在 z 条件下解码句子,解码器基于 GRU。
  • 使用 Householder 流通过组合可逆且体积保持变换来构造灵活的近似后验 q(z|y)。
  • 推导可处理的 ELBO,将主题模型项与序列模型项结合,并对 GMM 之间的 KL 给出上界以实现训练。
  • 通过对解码器以源文本 x 进行条件化并加入主题引导,将模型拓展到文本摘要。
  • 包含主题多样性正则化以鼓励学习到的主题之间的差异性。

实验结果

研究问题

  • RQ1基于主题引导的高斯混合先验能否改善潜在空间结构和句子质量?
  • RQ2将神经主题模型与 VAE 集成是否能降低后验塌陷、提升生成多样性与连贯性?
  • RQ3Householder 流如何影响 TGVAE 的后验灵活性和生成性能?
  • RQ4TGVAE 是否能同时提升无条件文本生成与如抽象摘要等有条件任务?

主要发现

方法APNEWS 测试-BLEUAPNEWS 自评BLEUIMDB 测试-BLEUIMDB 自评BLEUBNC 测试-BLEUBNC 自评BLEU
VAE0.5640.8660.2780.8910.1920.853
VAE+HF (K=1)0.5660.8650.2800.8990.1930.854
VAE+HF (K=10)0.5700.8730.2790.9020.1950.854
TGVAE (K=0, T=10)0.5820.8470.3200.8780.2030.832
TGVAE (K=1, T=10)0.5810.8470.3260.8710.2020.828
TGVAE (K=10, T=10)0.5840.8390.3270.8890.2020.829
TGVAE (K=10, T=30)0.6270.8110.3350.8500.2070.806
TGVAE (K=10, T=50)0.6290.8080.3400.8420.2100.793
  • TGVAE 在 APNEWS、IMDB 和 BNC 数据集上实现低于若干基线的困惑度上界。
  • 增加主题数量通常提升生成文本在 BLEU 基准及自 BLEU 多样性指标上的表现。
  • Householder 流 (HF) 提升后验推断,在合适的流深 K 下,优于标准 VAE 基线的生成质量。
  • 使用 GMM 先验的主题引导生成在 APNEWS、IMDB 与 BNC 上获得更好的主题一致性分数(NPMI)。
  • 对于摘要任务,将主题引导注入 Seq2Seq 框架可通过利用语义主题结构来提升生成。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。