Skip to main content
QUICK REVIEW

[论文解读] The Eighth Dialog System Technology Challenge

Seokhwan Kim, Michel Galley|arXiv (Cornell University)|Nov 14, 2019
Speech and dialogue systems参考文献 45被引用 53
一句话总结

本论文概述 DSTC8 的轨道、数据集、评估设置及在端到端多领域任务完成、NOESIS II 响应选择、音视频场景感知对话以及跨多个轨道和数据集的模式引导对话状态跟踪方面的结果。

ABSTRACT

This paper introduces the Eighth Dialog System Technology Challenge. In line with recent challenges, the eighth edition focuses on applying end-to-end dialog technologies in a pragmatic way for multi-domain task-completion, noetic response selection, audio visual scene-aware dialog, and schema-guided dialog state tracking tasks. This paper describes the task definition, provided datasets, and evaluation set-up for each track. We also summarize the results of the submitted systems to highlight the overall trends of the state-of-the-art technologies for the tasks.

研究动机与目标

  • 推动并组织第八届对话系统技术挑战赛(DSTC8),以促进端到端多领域任务完成、无意识/心智相关响应选择、音视频场景感知对话,以及模式引导对话状态跟踪的发展。
  • 为每个轨道提供任务定义、数据集和评估设置,以实现公平比较和广泛的社区参与。
  • 总结提交的系统并识别跨任务的对话技术前沿趋势。

提出的方法

  • 描述四个主要轨道及其子轨道,包括数据集增强和基线系统。
  • 呈现端到端多领域对话的端到端任务定义和基于 ConvLab 的 Task 1 评估。
  • 详细介绍 NOESIS II 响应选择任务的扩展,包含新的数据源和评估子任务。
  • 解释 AVSD 轨道的数据收集、多模态融合方法,以及 DSTC7→DSTC8 的改进。
  • 介绍 SGD 轨道,具备模式引导的对话状态表示和零-shot 泛化的考量。
  • 提供跨轨道使用的基线模型和评估指标。

实验结果

研究问题

  • RQ1端到端方法在现实评估设置下相较于传统管线系统在多领域任务完成方面有哪些差异?
  • RQ2在大语料库训练的模型能否高效适应具有有限域内数据的新领域(快速适应)?
  • RQ3多方与小组对话场景如何影响下一轮话语选择与歧义消解(NOESIS II 扩展)?
  • RQ4多模态信息(文本、视频、音频)是否提升音视频场景感知上下文中的对话质量?
  • RQ5模式引导的对话状态跟踪是否能够对未见API与领域实现鲁棒的零样本泛化?

主要发现

  • 在 Task 1 中,基于 BERT/NLU 的系统达到 88.80% 的模拟器成功率,但人工评估更看好基于端到端 GPT-2 的方法(68.32% 成功率)。
  • 在 Task 2 中,Top 提交使用 Transformer 或 BiLSTM 基础并进行域内微调,自动指标(Intent F1、Intent&Slot F1)显示出较强的领域自适应表现。
  • 在 NOESIS II 中,采用 BERT/RoBERTa 和领域自适应微调的顶尖团队在 Ubuntu 与 Advising 数据集上取得高召回率和 MRR 分数(例如 Team 15:Recall@1 0.761、Recall@10 0.979、MRR 0.848(Ubuntu))。
  • 在 AVSD DSTC8 中,经过微调的序列到序列模型与 GPT-2 嵌入的最佳系统在 BLEU-4、METEOR、CIDEr 以及人工评分方面优于基线(人工评分 3.938 对比基线 2.848)。
  • 在 SGD 中,提交了 25 支团队;Top 团队(Team 9、Team 14、Team 12)实现了较高的联合目标准确度(如 Team 9:0.865)和较强的平均目标准确度(0.971)。
  • 跨轨道,预训练模型(BERT/XLNet/RoBERTa)与模式/语义描述被用于泛化到未见 API 与领域。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。