Skip to main content
QUICK REVIEW

[论文解读] Schema-Guided Dialogue State Tracking Task at DSTC8

Abhinav Rastogi, Xiaoxue Zang|arXiv (Cornell University)|Feb 2, 2020
Topic Modeling参考文献 29被引用 32
一句话总结

本文在DSTC8提出 Schema-Guided Dialogue State Tracking (SGDST) 任务,推出一个覆盖16个领域和多种API的大规模 SGD 数据集、一个基于模式引导的建模方法,以及多种提交模型,重点是对未见 API 的零-shot 泛化。

ABSTRACT

This paper gives an overview of the Schema-Guided Dialogue State Tracking task of the 8th Dialogue System Technology Challenge. The goal of this task is to develop dialogue state tracking models suitable for large-scale virtual assistants, with a focus on data-efficient joint modeling across domains and zero-shot generalization to new APIs. This task provided a new dataset consisting of over 16000 dialogues in the training set spanning 16 domains to highlight these challenges, and a baseline model capable of zero-shot generalization to new APIs. Twenty-five teams participated, developing a range of neural network models, exceeding the performance of the baseline model by a very high margin. The submissions incorporated a variety of pre-trained encoders and data augmentation techniques. This paper describes the task definition, dataset and evaluation methodology. We also summarize the approach and results of the submitted systems to highlight the overall trends in the state-of-the-art.

研究动机与目标

  • 推动构建数据高效、跨领域的 DST 模型,用于大规模虚拟助手。
  • 提供一种模式引导范式,处理彼此功能重叠的众多 API,而无需单一的主模式。
  • 介绍包含16个领域和45个合成服务的 SGD 数据集,用于测试跨域和零样本泛化。
  • 评估多种提交并识别在未见 API 条件下实现零-shot DST 的有效技术。

提出的方法

  • 提出一种模式引导的方法,其中每个服务提供一个包含自然语言描述的意图和槽位模式。
  • 训练一个以语义模式元素为条件的统一模型,在跨服务预测对话状态,不使用域特定参数。
  • 使用预训练编码器(如 BERT)和数据增强,以实现对未见 API 的零-shot 泛化。
  • 将对话轮次表示为每个服务的帧,并利用模式描述对意图/槽位进行编码。
  • 在包含未见服务和领域的数据集上进行评估,以测试零-shot 与跨域能力。

实验结果

研究问题

  • RQ1在没有固定主模式的情况下,模式引导模型是否能在多个领域和重叠 API 中实现有效的对话状态追踪?
  • RQ2在以模式描述为条件时,模型对未见服务和领域的泛化能力(零-shot)有多好?
  • RQ3在大规模虚拟助手中,哪种数据集和评估设计最能揭示跨域和零-shot DST 能力?
  • RQ4哪些建模和数据增强策略能最好地利用模式语义来实现对未见 API 的 DST?

主要发现

  • SGDST 在跨越16个领域的未见 API 上实现了强健的零-shot 泛化。
  • 使用预训练编码器和数据增强(反向翻译)的顶级提交在未见服务上实现了高联合目标准确率。
  • 获胜团队在测试集上实现 86.53% 的联合目标准确率,在未见服务和领域上有显著提升。
  • 评估显示类别槽在未见领域上的表现可以接近已见领域,但相比其他团队存在更大差距。
  • 许多方法依赖通过模式描述对服务/槽/意图描述进行编码,并以分类器、QA 风格的跨度,或多任务的 BERT- 基模型来处理问题。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。