QUICK REVIEW

[论文解读] Coherent Dialogue with Attention-based Language Models

Hongyuan Mei, Mohit Bansal|arXiv (Cornell University)|Nov 21, 2016

Topic Modeling被引用 46

一句话总结

本文提出一种基于注意力机制的RNN语言模型，采用动态注意力机制，随时间扩展其上下文范围，以提升对话连贯性。通过允许每个生成的词关注最相关的历史词（而非固定长度的上下文），该模型在MovieTriples和Ubuntu Troubleshoot数据集上超越了当前最先进模型，在困惑度、BLEU、recall@N及人工评估中均取得更优结果，同时提升了响应多样性。

ABSTRACT

We model coherent conversation continuation via RNN-based dialogue models equipped with a dynamic attention mechanism. Our attention-RNN language model dynamically increases the scope of attention on the history as the conversation continues, as opposed to standard attention (or alignment) models with a fixed input scope in a sequence-to-sequence model. This allows each generated word to be associated with the most relevant words in its corresponding conversation history. We evaluate the model on two popular dialogue datasets, the open-domain MovieTriples dataset and the closed-domain Ubuntu Troubleshoot dataset, and achieve significant improvements over the state-of-the-art and baselines on several metrics, including complementary diversity-based metrics, human evaluation, and qualitative visualizations. We also show that a vanilla RNN with dynamic attention outperforms more complex memory models (e.g., LSTM and GRU) by allowing for flexible, long-distance memory. We promote further coherence via topic modeling-based reranking.

研究动机与目标

通过建模对话整体的演变过程，而非仅关注最近的回复，以提升神经对话生成的连贯性。
克服序列到序列模型中固定上下文注意力机制的局限性，后者限制了对话历史中长距离依赖关系的学习。
证明简单的RNN结合动态注意力机制在捕捉长距离依赖关系方面优于LSTM和GRU等更复杂的架构。
通过基于主题建模的重排序方法提升响应质量，作为注意力机制的补充。
通过自动指标与人工评估相结合的方式对模型进行评估，强调多样性与主题相关性。

提出的方法

该模型使用循环神经网络（RNN）语言模型，逐个标记生成对话回复，同时维护随时间演变的隐藏状态。
引入一种动态注意力机制，随着回复生成的推进，逐步扩大对对话历史的注意力范围，使每个词能够关注最相关的历史词。
注意力权重在每个解码步骤动态计算，基于当前隐藏状态和对话中所有先前的词，实现灵活的长距离记忆访问。
使用交叉熵损失进行训练，基于验证困惑度采用早停策略，优化器采用Adam。
应用互补的LDA-based重排序方法，对生成的Top-N响应进行重排序，利用主题一致性与排序权重提升召回率与BLEU分数。
在Q&A字幕数据集上进行预训练后，于MovieTriples数据集上进行微调，超参数通过开发集上的网格搜索确定。

实验结果

研究问题

RQ1与固定上下文注意力模型相比，一种随时间扩展上下文范围的动态注意力机制是否能提升对话连贯性？
RQ2在对话生成任务中，简单的RNN结合动态注意力机制是否优于LSTM和GRU等更复杂的记忆网络？
RQ3所提出的模型在生成响应中的多样性与主题相关性方面改善程度如何，以Distinct-1与人工评估衡量？
RQ4LDA-based重排序是否能进一步提升基于注意力模型在召回@N与BLEU等检索指标上的表现？
RQ5与序列到序列基线模型相比，该语言模型方法在开放域与封闭域对话基准上的泛化能力如何？

主要发现

A-RNN模型在MovieTriples数据集上达到SOTA性能，全对话的词级困惑度（PPL）为18.7，WER为0.15，显著优于先前基线模型。
在Ubuntu Troubleshoot数据集上，模型达到recall@10为0.62，BLEU得分为0.41，展现出在技术对话生成任务中的强劲表现。
与普通RNN相比，该模型将Distinct-1提升12%，表明响应多样性显著提高，且减少了如“我不知道”等通用输出。
人工评估确认，A-RNN生成的回复比基线模型更具连贯性与上下文相关性，尤其在保持主题连贯性方面表现更优。
动态注意力机制使模型能够关注对话早期的显著语义相关词，如注意力可视化图所示。
LDA-based重排序器在Ubuntu数据集上使recall@N提升8%，BLEU提升5%，证明了互补后处理的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。