[论文解读] Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders
本文提出基于 CVAE 的对话模型,以捕捉开放域对话中的话语层次多样性,包括一个知识引导变体(kgCVAE)以及用于稳定训练的词袋损失。
While recent neural encoder-decoder models have shown great promise in modeling open-domain conversations, they often generate dull and generic responses. Unlike past work that has focused on diversifying the output of the decoder at word-level to alleviate this problem, we present a novel framework based on conditional variational autoencoders that captures the discourse-level diversity in the encoder. Our model uses latent variables to learn a distribution over potential conversational intents and generates diverse responses using only greedy decoders. We have further developed a novel variant that is integrated with linguistic prior knowledge for better performance. Finally, the training procedure is improved by introducing a bag-of-word loss. Our proposed models have been validated to generate significantly more diverse responses than baseline approaches and exhibit competence in discourse-level decision-making.
研究动机与目标
- 激发开放域对话的“一对多”特性及对话语层次多样性的需求。
- 开发基于 CVAE 的框架,以建模潜在话语因素以产生多样化的响应。
- 通过 kgCVAE 将语言知识融入模型,以提升性能和可解释性。
- 通过词袋损失改进 CVAE 训练,以缓解潜在变量消失问题。
- 证明话语层次的多样性在生成合适响应方面可以优于词汇层面的多样性。
提出的方法
- 将每个对话表示为上下文 c、回复 x 和潜在变量 z,分布为 p(x|z,c)p(z|c)。
- 使用先验网络 p(z|c) 和识别网络 q(z|x,c) 来优化变分下界。
- 用 BRNN-GRU 编码话语,用 GRU 编码上下文以形成 c;然后在 z 和 c 的条件下用 GRU 生成 x。
- 通过将语言特征 y 纳入生成过程及从 z,c 的预测 y' 来引入 kgCVAE。
- 通过一个辅助损失词袋(BOW)来减轻潜在变量消失的问题,该损失从 z 和 c 预测 x 的 BOW。
实验结果
研究问题
- RQ1条件变分自编码器是否能捕捉开放域对话中的话语层次多样性?
- RQ2相对于基线,将潜在话语因素整合是否能提升有效回复的多样性和覆盖率?
- RQ3通过语言特征的知识引导(kgCVAE)是否提升性能和可解释性?
- RQ4词袋损失是否稳定 CVAE 训练并提升潜在变量的利用?
主要发现
| 模型 | 困惑度 (KL) | BLEU-1 精确 | BLEU-1 召回 | BLEU-2 精确 | BLEU-2 召回 | BLEU-3 精确 | BLEU-3 召回 | BLEU-4 精确 | BLEU-4 召回 | A-bow 精确 | A-bow 召回 | E-bow 精确 | E-bow 召回 | DA 精确 | DA 召回 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Baseline | 35.4 (n/a) | 0.405 | 0.336 | 0.300 | 0.281 | 0.272 | 0.254 | 0.226 | 0.215 | 0.951 | 0.935 | 0.827 | 0.801 | 0.736 | 0.514 |
| CVAE | 20.2 (11.36) | 0.372 | 0.381 | 0.295 | 0.322 | 0.265 | 0.292 | 0.223 | 0.248 | 0.954 | 0.943 | 0.815 | 0.812 | 0.704 | 0.604 |
| kgCVAE | 16.02 (13.08) | 0.412 | 0.411 | 0.350 | 0.356 | 0.310 | 0.318 | 0.262 | 0.272 | 0.961 | 0.944 | 0.804 | 0.807 | 0.721 | 0.598 |
- CVAE 与 kgCVAE 生成的响应比强基线更具多样性,在各指标上具有更高的 recall。
- kgCVAE 在 BLEU-1 至 BLEU-4 及 A-BOW 指标上实现最高的精确度和召回率。
- 在不同熵上下文下,CVAE/kgCVAE 的 recall 高于基线,kgCVAE 维持更高的 precision。
- 词袋损失有效缓解潜在变量消失并提高训练稳定性,而不完全依赖 KL 退火。
- t-SNE 可视化表明所学的 z 空间在与对话行为和回复长度相关的方式中聚类。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。