QUICK REVIEW

[论文解读] STAR: A Schema-Guided Dialog Dataset for Transfer Learning

Johannes E. M. Mosig, Shikib Mehri|arXiv (Cornell University)|Oct 22, 2020

Topic Modeling参考文献 30被引用 25

一句话总结

STAR 是一个大规模、基于任务模式的对话数据集，包含 13 个领域、5,820 次对话和 127,833 条话语，旨在支持跨任务和跨领域的迁移学习。通过显式建模任务模式，作者证明了基于模式的模型在零样本迁移学习中显著提升了下一动作预测和响应生成的性能，尤其在多任务和未见领域设置下表现突出。

ABSTRACT

We present STAR, a schema-guided task-oriented dialog dataset consisting of 127,833 utterances and knowledge base queries across 5,820 task-oriented dialogs in 13 domains that is especially designed to facilitate task and domain transfer learning in task-oriented dialog. Furthermore, we propose a scalable crowd-sourcing paradigm to collect arbitrarily large datasets of the same quality as STAR. Moreover, we introduce novel schema-guided dialog models that use an explicit description of the task(s) to generalize from known to unknown tasks. We demonstrate the effectiveness of these models, particularly for zero-shot generalization across tasks and domains.

研究动机与目标

解决在任务导向对话系统中将对话技能迁移到未见任务和领域所面临的挑战。
创建一个高质量、生态上有效的数据集，以捕捉真实用户行为，包括满意、不满意以及多任务对话。
开发一种可扩展的众包方法，确保一致且高质量的数据收集，并提供显式的模式表示。
提出基于模式的模型，通过条件化于任务模式来提升泛化能力与零样本迁移性能。
在全新且多样化的基准数据集上建立下一动作预测、响应生成和零样本迁移的基线性能指标。

提出的方法

使用 Wizard-of-Oz 设置收集数据，训练过的众包工作者根据预定义的任务模式模拟系统响应。
每次对话被结构化为三方交互：用户 ↔ 系统 ↔ 知识库，每一轮均记录显式的知识库查询。
开发了一种新颖的众包框架，以确保一致性、真实性和可扩展性，包含详细的说明、激励机制以及迭代式试点测试。
任务模式以图结构工作流形式表示，定义有效的对话路径，其中节点对应系统动作，边对应用户话语。
使用 BERT 和 GPT-2 架构训练基于模式的模型，对下一动作预测和响应生成任务均显式地基于任务模式进行条件化。
在零样本设置下进行迁移学习实验：在 N-1 个任务/领域上进行训练，评估剩余一个任务/领域的表现，涵盖满意和不满意的对话数据。

实验结果

研究问题

RQ1显式模式表示是否能提升在未见任务和领域上的任务导向对话系统中的零样本泛化能力？
RQ2与标准监督模型相比，基于模式的建模在多任务对话设置下的性能表现如何？
RQ3同时包含满意和不满意的对话在未见场景中对迁移学习性能的提升程度有多大？
RQ4可扩展的众包流水线是否能够大规模生成高质量、带有模式标注的对话数据，并保持一致的系统行为？
RQ5在未见任务上，基于模式的模型与标准模型在响应生成质量和动作预测准确性方面表现如何？

主要发现

在使用满意和不满意的对话数据时，基于模式的模型在零样本任务迁移的下一动作预测任务中取得了 37.15 的 F-1 分数，优于标准 BERT 模型（36.89 F-1）。
在领域迁移任务中，基于模式的 BERT 模型达到 37.20 F-1，而标准 BERT 模型为 34.84 F-1，表明其在未见领域上具有更强的泛化能力。
在响应生成任务中，使用模式条件化的 GPT-2 在零样本领域迁移中取得了 8.82 的 IEM 和 53.02 的 Entity F-1，显著优于基线 GPT-2（8.77 IEM，50.43 Entity F-1）。
模式的使用在所有评估指标中均带来一致的性能提升，尤其在多任务和零样本设置下表现明显，表明模式作为强归纳偏置具有显著作用。
即使在模式引导下，未见任务上的性能仍显著低于已见任务，凸显了对基于模式的泛化机制进一步研究的必要性。
所提出的众包框架成功生成了一个高质量数据集，具备真实用户行为、一致的系统行为以及显式的知识库查询，适用于大规模数据收集。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。