[论文解读] MIDAS: A Dialog Act Annotation Scheme for Open Domain Human Machine Spoken Conversations
本文提出了MIDAS,一种专为开放域人机口语对话设计的分层多标签对话行为标注方案,解决了现有面向人与人对话的标注方案的局限性。基于使用MIDAS标注的24,000条语句数据集,作者训练了一个基于迁移学习的多标签对话行为分类器,F1得分为0.79,表明在真实世界人机交互(含ASR输出)中性能优于先前方法。
Dialog act prediction is an essential language comprehension task for both dialog system building and discourse analysis. Previous dialog act schemes, such as SWBD-DAMSL, are designed for human-human conversations, in which conversation partners have perfect language understanding ability. In this paper, we design a dialog act annotation scheme, MIDAS (Machine Interaction Dialog Act Scheme), targeted on open-domain human-machine conversations. MIDAS is designed to assist machines which have limited ability to understand their human partners. MIDAS has a hierarchical structure and supports multi-label annotations. We collected and annotated a large open-domain human-machine spoken conversation dataset (consists of 24K utterances). To show the applicability of the scheme, we leverage transfer learning methods to train a multi-label dialog act prediction model and reach an F1 score of 0.79.
研究动机与目标
- 为解决专门针对人机口语对话设计的对话行为标注方案的空白,此类对话与人与人之间的互动存在显著差异。
- 开发一种支持多标签、分层标注的方案,以捕捉开放域人机对话中语句的复杂多维功能特性。
- 利用所提出的方案创建大规模真实世界标注数据集,用于训练和评估语音对话系统中的对话行为预测器。
- 通过使模型更好地理解人机交互中用户意图,特别是ASR错误条件下的情况,提升对话系统性能。
- 提供开源标注数据和训练模型,推动社会对话代理在对话行为预测方面的研究进展。
提出的方法
- 设计一种包含11个主要类别和88个子类别的分层多标签对话行为标注方案(MIDAS),针对人机交互特征(如祈使请求、话题转换)进行优化。
- 收集并标注了24,000条来自真实人机社交对话的语句,确保高标注者间一致性(kappa = 0.94)。
- 使用BERT嵌入进行迁移学习,基于MIDAS标注数据集微调,训练多标签对话行为分类模型。
- 使用F1分数评估性能,比较包含与不包含上下文的变体,以及不同上下文表示方式(文本 vs. 对话行为标签)的效果。
- 通过在同分布的无标注人机对话数据上微调BERT,测试域内预训练的影响。
- 对比使用人与人对话数据(SwDA)进行迁移学习的有效性,分析因领域差异和标注分布差异导致的性能下降。
实验结果
研究问题
- RQ1是否一种专为人类-机器对话设计的对话行为标注方案,相比专为人与人对话设计的方案,能提升对话行为预测性能?
- RQ2在开放域人机对话中,结合上下文信息(包括表面文本和先前对话行为)对多标签对话行为分类有何影响?
- RQ3在域内无标注人机对话数据上微调BERT,与仅使用预训练BERT相比,能在多大程度上提升对话行为预测性能?
- RQ4尽管迁移学习具有优势,为何在人与人对话数据(如SwDA)上微调无法提升人机数据上的性能?
- RQ5对话行为预测中的主要错误模式是什么?它们与上下文长度和语句分割的关系如何?
主要发现
- 所提出的MIDAS方案实现了高标注者间一致性(kappa = 0.94),证实其在复杂开放域环境下的清晰性和实用性。
- 使用在域内数据上微调的BERT嵌入的多标签对话行为分类器,F1得分为0.7940,优于未进行领域特定微调的模型。
- 同时使用前一句语句的文本及其对话行为标签作为上下文时性能最佳(F1 = 79.44%),尽管与仅使用文本的上下文相比,提升并不具有统计显著性。
- 在人与人对话数据(SwDA)上微调并未提升性能,反而略微降低F1,可能由于领域偏移以及标注方案差异(单标签 vs. 多标签)。
- 模型在区分“非意见陈述”与“一般意见”时最困难,尤其是在上下文仅限单轮时,表明需要更长上下文建模能力。
- 误分类常由错误的语句分割和无意义语句引起,强调了在真实世界ASR流水线中进行稳健预处理和分割的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。