[论文解读] End-to-end Conversation Modeling Track in DSTC6
本论文介绍了 DSTC6 的端到端对话建模赛道,挑战参赛团队基于对话上下文和外部知识,构建能够生成类人回复的神经对话系统,以应对客户服务推文。表现最佳的系统通过生成富有同理心、上下文恰当的回复,获得了最高的真人评分,甚至在某些情况下超越了参考人类回复。
End-to-end training of neural networks is a promising approach to automatic construction of dialog systems using a human-to-human dialog corpus. Recently, Vinyals et al. tested neural conversation models using OpenSubtitles. Lowe et al. released the Ubuntu Dialogue Corpus for researching unstructured multi-turn dialogue systems. Furthermore, the approach has been extended to accomplish task oriented dialogs to provide information properly with natural conversation. For example, Ghazvininejad et al. proposed a knowledge grounded neural conversation model [3], where the research is aiming at combining conversational dialogs with task-oriented knowledge using unstructured data such as Twitter data for conversation and Foursquare data for external knowledge.However, the task is still limited to a restaurant information service, and has not yet been tested with a wide variety of dialog tasks. In addition, it is still unclear how to create intelligent dialog systems that can respond like a human agent. In consideration of these problems, we proposed a challenge track to the 6th dialog system technology challenges (DSTC6) using human-to-human dialog data to mimic human dialog behaviors. The focus of the challenge track is to train end-to-end conversation models from human-to-human conversation and accomplish end-to-end dialog tasks in various situations assuming a customer service, in which a system plays a role of human agent and generates natural and informative sentences in response to user's questions or comments given dialog context.
研究动机与目标
- 开发完全基于数据的端到端神经对话系统,能够在客户服务场景中生成自然且信息丰富的回复。
- 评估序列到序列模型以及外部知识整合在生成真实世界 Twitter 客户服务互动中上下文恰当回复方面的有效性。
- 比较自动指标与人工评估在开放域、任务导向对话系统中评估回复质量的差异。
- 探索如何在无显式情绪标注的情况下,建模神经响应生成中的同理心与情感理解。
- 通过对比自动评估指标与人工判断,识别自动评估指标在响应质量评估中的不足之处。
提出的方法
- 参赛者基于 2017 年 9 月 7 日至 18 日期间收集的大规模 Twitter 客户服务对话数据,训练端到端的序列到序列模型。
- 系统可使用来自公开网络来源的外部知识,但不得与官方训练集、验证集或测试集重叠。
- 提供了一个数据采集工具,以确保各团队间的数据获取一致,官方训练/开发/测试划分仅在数据采集窗口结束后发布。
- 响应生成通过自动指标(如 BLEU、ROUGE)和人工标注的 5 分制评分(自然性和信息量)进行评估。
- 人工评估聚焦于句子级别的评分,评估回复在同理心、相关性和正确性方面对用户输入的回应质量。
- 引入了一个使用 OpenSubtitles 数据的预赛任务,以评估非任务导向对话情境下的自然性。
实验结果
研究问题
- RQ1端到端神经序列到序列模型在客户服务对话场景中,能多好地生成类人、上下文相关的回复?
- RQ2整合外部知识在多大程度上提升了生成回复的信息量和准确性?
- RQ3自动评估指标在开放域对话系统中与人工判断的响应质量相关性如何?
- RQ4神经模型能否生成比参考人类回复更具支持感的同理心回复?
- RQ5当模型将负面用户情绪误判为正面时,响应生成的关键失败模式是什么?
主要发现
- 表现最佳的系统获得了最高的平均人工评分(4.5)和最高比例的‘非常优秀’评分(5 分),显著优于参考系统。
- 人工评估显示,包含情感支持与同理心的回复始终获得更高评分,即使与参考回复略有偏差。
- 部分系统生成的回复甚至比原始人类回复获得更高认可,尤其是在航班取消或服务不佳等情绪强烈的语境中。
- 表现最差的系统完全误解了负面用户输入为正面,导致平均人工评分仅为 1.2,凸显了情感理解中的关键失败。
- BLEU 和 ROUGE 等客观指标与人工判断的相关性有限,表明需要更优的自动评估函数。
- 参考系统虽表现强劲,但在 6 个示例中的 3 个案例中被最佳系统超越,尤其在表达同情和提供可操作解决方案方面。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。