QUICK REVIEW

[论文解读] Improving Variational Encoder-Decoders in Dialogue Generation

Xiaoyu Shen, Hui Su|arXiv (Cornell University)|Feb 6, 2018

Topic Modeling参考文献 28被引用 31

一句话总结

本文提出了一种用于对话生成的变分自编码器-解码器（VED）模型的两阶段训练框架，将潜在表征学习与序列生成解耦，以缓解KL消失问题。通过先使用自编码器学习灵活的连续表征，再以更具表现力的潜在先验条件化VED模型，该方法在流畅性、连贯性和多样性方面均取得显著提升，在自动评估与人工评估中均优于强基线模型。

ABSTRACT

Variational encoder-decoders (VEDs) have shown promising results in dialogue generation. However, the latent variable distributions are usually approximated by a much simpler model than the powerful RNN structure used for encoding and decoding, yielding the KL-vanishing problem and inconsistent training objective. In this paper, we separate the training step into two phases: The first phase learns to autoencode discrete texts into continuous embeddings, from which the second phase learns to generalize latent representations by reconstructing the encoded embedding. In this case, latent variables are sampled by transforming Gaussian noise through multi-layer perceptrons and are trained with a separate VED model, which has the potential of realizing a much more flexible distribution. We compare our model with current popular models and the experiment demonstrates substantial improvement in both metric-based and human evaluations.

研究动机与目标

为解决在对话生成中，RNN主导学习而潜在变量被忽略的变分自编码器-解码器（VED）模型中的KL消失问题。
在不牺牲RNN生成连贯序列能力的前提下，提升VED中潜在变量分布的表达能力。
开发一种将表征学习与生成过程分离的训练框架，以实现更灵活且高效的后验与先验分布。
证明两阶段训练流程——首先通过自编码学习连续表征，然后在这些表征上训练VED——可显著提升对话生成性能。

提出的方法

该模型将训练分为两个阶段：第一阶段，自编码器（AE）学习从离散文本到连续嵌入的对话话语重建。
第二阶段，条件变分自编码器（CVAE）学习从这些嵌入中生成潜在变量，使用多层感知机将高斯噪声转换为灵活的潜在码。
AE模块使用RNN编码器和解码器作为通用近似器，提取高质量的连续表征，随后将这些表征作为输入用于CVAE中的潜在变量建模。
在训练期间应用课程采样（scheduled sampling）以提升泛化能力并减少生成阶段的暴露偏差。
CVAE采用变分下界目标进行训练，以平衡重建损失与KL散度，同时AE确保表征学习的鲁棒性。
该框架通过使用基于VAE的替代方案替代GAN风格的精炼过程，避免对抗训练，从而在序列到序列任务中实现稳定且可扩展的训练。

实验结果

研究问题

RQ1将潜在表征学习与序列生成解耦，能否提升对话VED中潜在变量分布的表达能力？
RQ2将训练分为两个阶段，对缓解对话生成模型中KL消失问题有何影响？
RQ3两阶段训练流程（先自编码，再VED训练）在多大程度上能提升生成回复的流畅性、连贯性和多样性？
RQ4在自编码器阶段使用基于RNN的通用近似器，是否能相比固定先验分布，提升所学表征的质量？

主要发现

在Dailydialog语料库上，该模型在流畅性方面的人工评估得分达到89%，显著优于KLA+BOW（70%）和FB-all（74%）。
在连贯性评估中，该模型在上下文相关性上的一致度达到44%，优于KLA+BOW（36%）和FB-all（29%），表明其具有更好的上下文对齐能力。
在人工评估中，该模型的多样性得分为51%，表明其生成的回复更具变化性且非冗余，优于基线模型。
基于指标的结果显示，在Dailydialog和Cornell Movie Corpus两个基准上，BLEU、ROUGE和BERTScore均取得一致提升。
该模型能生成更具话题相关性和信息量的回复，例如在讨论出租车费用时引入新内容如“我想买辆新车”。
人工评估确认，该模型生成的回复在流畅性、连贯性和多样性方面表现优异，标注者之间一致性高，验证了两阶段训练方法的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。