QUICK REVIEW

[论文解读] DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset

Yanran Li, Hui Su|arXiv (Cornell University)|Oct 11, 2017

Topic Modeling参考文献 24被引用 667

一句话总结

DailyDialog 是一个高质量、由人工撰写的日常生活多轮对话数据集，包含对话行为（Inform、Questions、Directives、Commissive）和情感（七类）的手工注释。它约包含 13k 条对话（每条约 8 轮），并为检索与生成模型提供基线评估。

ABSTRACT

We develop a high-quality multi-turn dialog dataset, DailyDialog, which is intriguing in several aspects. The language is human-written and less noisy. The dialogues in the dataset reflect our daily communication way and cover various topics about our daily life. We also manually label the developed dataset with communication intention and emotion information. Then, we evaluate existing approaches on DailyDialog dataset and hope it benefit the research field of dialog systems.

研究动机与目标

提供一个高质量、手工标注的反映日常生活对话的多轮对话数据集。
用四类对话行为（Inform、Questions、Directives、Commissive）及七种情感类别对 utterance 进行标注。
提供基线评估以促进对话系统研究在检索与生成范式上的应用。
突出日常生活模式与丰富情感内容，帮助情感感知对话建模。

提出的方法

从日常生活情境中抓取英文对话，确保语言正式、由人撰写。
自动纠错拼写并去重；筛选为两方对话（两位说话者）。
逐条人工标注每个 utterance 的四类对话行为，遵循 Amanova et al. (2016) 和七种情感（Big Six plus Other）。
通过多数表决与讨论评估人际标注一致性（78.9%）。
对 DailyDialog 上的检索型与生成型对话系统进行了基线评估。
使用 OpenSubtitles 作为领域外数据来比较预训练效果。

实验结果

研究问题

RQ1日常生活多轮对话在主题多样性、对话流、情感与注释质量方面的特征是什么？
RQ2现有的基于检索和基于生成的对话模型在一个高质量、手工标注的日常对话数据集上的表现如何？
RQ3对 DailyDialog 的对话行为和情感注释是否能提升检索/排序与生成质量？
RQ4在日常对话中观察到的对话流模式（如双轮、多轮）有哪些，简单问答之外的模式有多常见？

主要发现

数据集包含 13,118 条对话，平均约 7.9 轮，且每条发言约 14.6 个词。
DailyDialog 的主题覆盖十个类别，其中关系、日常生活与工作最为普遍。
utterance 标注为四类对话行为（Inform、Questions、Directives、Commissive）和七个情感类别；标注者一致性为 78.9%。
观察到两种显著的多轮模式：(i) 说话者先回答一个问题再提出另一个问题（Pattern 1，18.3%），以及 (ii) 提议者的想法促成另一提案（Pattern 2，9.2%）。
情感标签显示丰富的情感， Happiness 是最大类别，且较大比例标记为 Other（83.10%）。
基线结果显示基于注意力的生成与层次模型在 BLEU 和困惑度方面通常优于普通的 Seq2Seq；使用 OpenSubtitles 进行预训练对领域特定表现可能有负面影响，原因是领域不匹配。
基于检索的方法结合意图与情感感知的重排序可在一定程度上提升 BLEU 分数并保持较合理的情感-意图对齐。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。