Skip to main content
QUICK REVIEW

[论文解读] Microsoft Dialogue Challenge: Building End-to-End Task-Completion Dialogue Systems

Xiujun Li, Yu Wang|arXiv (Cornell University)|Jul 29, 2018
Speech and dialogue systems被引用 60
一句话总结

tldr: 本文提出一个 Dialogue Challenge,用以在统一平台(包含仿真器)和三个有标签的领域(movie-ticket, restaurant, taxi)中开发和基准评估端到端任务完成对话系统。

ABSTRACT

This proposal introduces a Dialogue Challenge for building end-to-end task-completion dialogue systems, with the goal of encouraging the dialogue research community to collaborate and benchmark on standard datasets and unified experimental environment. In this special session, we will release human-annotated conversational data in three domains (movie-ticket booking, restaurant reservation, and taxi booking), as well as an experiment platform with built-in simulators in each domain, for training and evaluation purposes. The final submitted systems will be evaluated both in simulated setting and by human judges.

研究动机与目标

  • 目标:促进端到端任务完成对话研究中的协作与基准评估。
  • 提供跨多个领域的标准化、人工标注数据集,以用于端到端系统。
  • 提供一个集成的实验平台,配备领域特定的仿真器用于训练与评估。
  • 促进提交的对话系统在仿真与人类评估中的综合评估。

提出的方法

  • 方法:引入一个带有议程驱动的用户模型和模块化的 NLU/NLG 的用户-对话系统平台。
  • 发布跨三个领域的带注释的对话数据,以支持端到端系统开发。
  • 提供基于标注对话构建的知识库,用于任务特定的推理和应答生成。
  • 允许参与者插入任意 NLU/NLG 模块并在预定义任务目标下进行训练/评估。
  • 在统一框架中使用仿真指标和人工判断来评估提交的系统。

实验结果

研究问题

  • RQ1研究问题:一个统一平台中,端到端对话系统在三个不同领域(movie-ticket、restaurant、taxi)下多大程度上能有效实现任务完成?
  • RQ2仿真评估与人类评估对系统评估与进展的影响是什么?
  • RQ3不同模块(NLU、状态追踪、对话行为、NLG)如何在跨领域的端到端任务完成性能中起作用?
  • RQ4标准化的数据与平台框架能否加速对话研究中的强化学习与 benchmarking?

主要发现

  • 主要发现:公开了三个带注释的任务领域:movie-ticket 预订、restaurant 预订、taxi 叫车。
  • movie-ticket 数据包含 2890 条对话,约 7.5 回合/会话;每个领域包含 11 个意图及一组槽位(例如 movie-ticket 为 29)。
  • 提供数据集示例和知识库结构,以支持端到端对话开发与评估。
  • 一个平台架构将用户仿真器与对话系统配对,支持多轮交互和评估所需的领域数据访问。
  • 评估计划包括基于仿真的指标(成功率、平均回合数、平均奖励)与对自然性与连贯性的人工判断。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。