[论文解读] Topic-based Evaluation for Conversational Bots
本文提出基于主题的度量来评估非任务导向对话机器人,并开发主题分类器(DAN 和 ADAN)以衡量主题深度、广度和关键词覆盖,并在实时 Alexa Prize 数据和人工判断中对其进行验证。
Dialog evaluation is a challenging problem, especially for non task-oriented dialogs where conversational success is not well-defined. We propose to evaluate dialog quality using topic-based metrics that describe the ability of a conversational bot to sustain coherent and engaging conversations on a topic, and the diversity of topics that a bot can handle. To detect conversation topics per utterance, we adopt Deep Average Networks (DAN) and train a topic classifier on a variety of question and query data categorized into multiple topics. We propose a novel extension to DAN by adding a topic-word attention table that allows the system to jointly capture topic keywords in an utterance and perform topic classification. We compare our proposed topic based metrics with the ratings provided by users and show that our metrics both correlate with and complement human judgment. Our analysis is performed on tens of thousands of real human-bot dialogs from the Alexa Prize competition and highlights user expectations for conversational bots.
研究动机与目标
- 提出基于主题的度量,用于评估非任务导向机器人对话质量(主题广度和深度)。
- 开发有监督的主题分类器以检测话语的主题和主题特定关键词。
- 在 DAN 增加一个主题词注意机制,以实现可解释的关键词检测。
- 在 Alexa Prize 数据上用实时用户评分和人工判断验证自动度量。
提出的方法
- 将深度平均网络(DAN)用作对话语句的快速主题分类器。
- 引入带主题词注意表的注意力深度平均网络(ADAN),以识别每个话语的显著主题关键词。
- 在内部问题数据(55 个主题)和 Alexa 知识查询数据(26 个主题)上训练分类器。
- 定义基于主题的评估指标:主题特定轮次、主题连贯子对话、主题深度和主题广度(粗粒度和细粒度)。
- 通过从这两种数据源训练的 DAN 模型进行集成,对每个话语选择较低熵的预测以提高鲁棒性。
实验结果
研究问题
- RQ1基于主题的度量(深度、广度、关键词覆盖)是否能够可靠地反映非任务导向机器人中的对话质量?
- RQ2主题分类器(DAN/ADAN)是否能够准确识别用户话语中的主题和有意义的关键词?
- RQ3基于主题的度量是否与实时用户评分相关并能补充人工判断?
- RQ4基于主题的分析能为对话机器人对用户期望提供哪些见解?
主要发现
- 主题深度与用户满意度相关,且接近预测性强的响应错误率(RER)的水平。
- 粗粒度的主题广度与用户评分相关,表明话题多样性提高感知质量;仅仅主题频次的预测性较弱。
- 通过 ADAN 的主题特定关键词覆盖和检测,揭示了关于用户意图和主题的有意义、可解释的线索。
- DAN 在内部数据和 Alexa 数据上都实现了强烈的主题分类准确率,ADAN 提供可解释的关键词检测。
- 基于主题的度量能够捕捉关于重复性和话题多样性的信息,这些信息是实时评分所不能完全捕捉的。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。