Skip to main content
QUICK REVIEW

[论文解读] A Simple Language Model for Task-Oriented Dialogue

Ehsan Hosseini-Asl, Bryan McCann|arXiv (Cornell University)|May 2, 2020
Topic Modeling参考文献 62被引用 159
一句话总结

SimpleTOD 使用单一因果语言模型端到端处理所有面向任务的对话子任务,在 MultiWOZ 上在对话状态跟踪和端到端指标方面达到目前最先进结果。

ABSTRACT

Task-oriented dialogue is often decomposed into three tasks: understanding user input, deciding actions, and generating a response. While such decomposition might suggest a dedicated model for each sub-task, we find a simple, unified approach leads to state-of-the-art performance on the MultiWOZ dataset. SimpleTOD is a simple approach to task-oriented dialogue that uses a single, causal language model trained on all sub-tasks recast as a single sequence prediction problem. This allows SimpleTOD to fully leverage transfer learning from pre-trained, open domain, causal language models such as GPT-2. SimpleTOD improves over the prior state-of-the-art in joint goal accuracy for dialogue state tracking, and our analysis reveals robustness to noisy annotations in this setting. SimpleTOD also improves the main metrics used to evaluate action decisions and response generation in an end-to-end setting: inform rate by 8.1 points, success rate by 9.7 points, and combined score by 7.2 points.

研究动机与目标

  • 将面向任务的对话重新表述为一个单一序列预测问题。
  • 利用预训练的开放领域因果语言模型(如 GPT-2)用于 TOD。
  • 通过端到端在子任务上训练统一模型来降低错误传播。
  • 展示对嘈杂标注的鲁棒性并提供可复现实验的代码/数据。
  • 提供对标记(token)设计和预训练对 TOD 性能影响的分析。

提出的方法

  • 在拼接的 TOD 序列 x^t = [C_t; B_t; D_t; A_t; S_t] 上训练单一基于 Transformer 的因果语言模型。
  • 将对话上下文、 belief state、数据库结果、动作和去词汇化的回复表示为一个生成任务。
  • 从预训练权重(DistilGPT2/GPT-2)初始化并使用预训练 BPE 进行分词;将序列截断超过 1024 个标记。
  • 使用特殊标记来区分用户/系统段并使用段结束标记来引导生成。
  • 在 MultiWOZ 2.0/2.1 的端到端设置下进行评估,报告联合 DST 准确率和端到端指标(Inform、Success、BLEU、Combined)。
  • 证明具有最小监督的单向解码器可以超越先前的模块化/状态跟踪模型。

实验结果

研究问题

  • RQ1是否可以使用单一的因果语言模型而非模块化流水线来有效解决面向任务的对话?
  • RQ2预训练和标记分段选择如何影响在 MultiWOZ 上的端到端 TOD 性能?
  • RQ3在训练和推理过程中包括或排除数据库搜索结果的影响是什么?
  • RQ4端到端 TOD 对实际数据集中嘈杂标注的鲁棒性如何?

主要发现

模型解码器上下文编码器额外监督联合准确性
TRADE ∗Generative + ClassifierBidirectional-45.6
DSTQA ∗∗ClassifierBidirectionalknowledge graph51.17
DST-Picklist ∗ClassifierBidirectional-53.3
SST ∗GenerativeBidirectionalschema graph55.23
TripPy †ClassifierBidirectionalaction decision55.3
SimpleTOD oGenerativeUnidirectional-55.72
SimpleTOD ∗GenerativeUnidirectional-55.76
SimpleTOD +GenerativeUnidirectional-57.47
  • SimpleTOD 在 MultiWOZ 2.1 的对话状态跟踪联合目标准确性方面达到最新水平(55.76,未进行测试清理;57.47,清理后)。
  • 在端到端评估中,SimpleTOD 在 inform 率、success 率和综合分数上超过了之前的工作(例如 inform 84.4,success 70.1,BLEU 15.01,combined 92.26,在无数据库输入的情况下)。
  • 使用 oracle DB 搜索或动态 DB 搜索可以获得更高的逐项指标分数,但最佳端到端性能发生在没有 DB 搜索引导时。
  • 端到端、单模型的 TOD 可以在不需要额外监督的情况下超越专门的多组件基线。
  • 消融研究显示段结束标记和预训练的重要性;对于 MultiWOZ 的端到端性能,较大的 SimpleTOD 模型并不总是更好。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。