Skip to main content
QUICK REVIEW

[论文解读] Taskmaster-1: Toward a Realistic and Diverse Dialog Dataset

Bill Byrne, K. S. Krishnamoorthi|arXiv (Cornell University)|Sep 1, 2019
Topic Modeling参考文献 26被引用 75
一句话总结

Taskmaster-1 引入了一个在六个领域中共有 13,215 个目标导向对话的数据集,采集自两种方法(WOz 双人对话与自我对话),并附带 API 风格标注及基线神经模型。

ABSTRACT

A significant barrier to progress in data-driven approaches to building dialog systems is the lack of high quality, goal-oriented conversational data. To help satisfy this elementary requirement, we introduce the initial release of the Taskmaster-1 dataset which includes 13,215 task-based dialogs comprising six domains. Two procedures were used to create this collection, each with unique advantages. The first involves a two-person, spoken "Wizard of Oz" (WOz) approach in which trained agents and crowdsourced workers interact to complete the task while the second is "self-dialog" in which crowdsourced workers write the entire dialog themselves. We do not restrict the workers to detailed scripts or to a small knowledge base and hence we observe that our dataset contains more realistic and diverse conversations in comparison to existing datasets. We offer several baseline models including state of the art neural seq2seq architectures with benchmark performance as well as qualitative human evaluations. Dialogs are labeled with API calls and arguments, a simple and cost effective approach which avoids the requirement of complex annotation schema. The layer of abstraction between the dialog model and the service provider API allows for a given model to interact with multiple services that provide similar functionally. Finally, the dataset will evoke interest in written vs. spoken language, discourse patterns, error handling and other linguistic phenomena related to dialog system research, development and design.

研究动机与目标

  • 为数据驱动的对话系统解决缺乏高质量、面向目标的对话数据的问题。
  • 通过结合口语化的 WOz 和自我对话方法,提供现实多样化的语料库。
  • 用简单的 API 调用和参数来标注,以简化标注并实现跨多服务的 grounding。
  • 对基线 Seq2Seq 和 Transformer 模型进行基准测试,并比较自动评估与人工判断。

提出的方法

  • 在六个领域(披萨、汽车维修、打车服务、电影票、咖啡、餐厅订位)创建 13,215 个对话。
  • 使用 Wizard-of-Oz 设置,邀请群体工作者担任用户、训练有素的代理人担任助手,收集双人口语对话。
  • 收集自我对话,让群体工作者撰写完整的用户-助手对话。
  • 用 API 调用和参数对对话进行标注(没有复杂的对话状态),以实现 grounding 并便于在跨服务中的复用。
  • 在自我对话语料库上,训练和评估多种基线(3-gram、4-gram、LSTM、带注意力的 LSTM、卷积、Transformer)以及一个 GPT-2 基线。
  • 比较自动评估指标(困惑度 PPL、BLEU)和人工判断(对输出的评分和排序)。

实验结果

研究问题

  • RQ1在不限制知识库规模的前提下,如何构建一个现实且多样的目标导向对话数据集?
  • RQ2WOz 双人对话和自我对话是否呈现不同的语言特征和模型挑战?
  • RQ3基于 API 调用的标注是否足以在多服务中实现对话 grounding?
  • RQ4在 Taskmaster-1 上,标准的 seq2seq 架构相较最近的基线(如 Transformer、GPT-2)在自动指标和人工判断方面的表现如何?
  • RQ5自动指标与人工判断之间在此数据集上的关系是怎样的?

主要发现

  • Taskmaster-1 包含 13,215 条对话,覆盖六个领域,其中有 5,507 条口语对话和 7,708 条书写对话。
  • 两人 WOz 对话与自我对话在语言特征和建模难度上存在差异;自我对话更具多样性,自动建模更具挑战性。
  • 与 MultiWOZ 相比,该数据集拥有更多的独特词汇和真实世界的命名实体;自我对话产生的困惑度更高、BLEU 值更低,表明建模难度更大。
  • 在自我对话上,基于 Transformer 的模型在自动评估(PPL、BLEU)方面达到最佳,并在排序上与人工判断高度一致。
  • API-参数标注(带接受/拒绝标记)提供了一种简单的 grounding 方案,适用于多服务场景且标注高效。
  • 具备拷贝能力的 Transformer 变体提升了 API-参数预测准确度(Transformer 51.79% 对 Transformer 48.73%)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。