QUICK REVIEW

[论文解读] How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation

Chia‐Wei Liu, Ryan Lowe|arXiv (Cornell University)|Mar 25, 2016

Topic Modeling参考文献 41被引用 614

一句话总结

该论文表明常见的无监督自动评估指标（BLEU、METEOR、ROUGE，以及基于嵌入的分数）在对话响应的人类判断上相关性较差，无论在 Twitter 还是 Ubuntu 领域，并主张开发更好的评估指标。

ABSTRACT

We investigate evaluation metrics for dialogue response generation systems where supervised labels, such as task completion, are not available. Recent works in response generation have adopted metrics from machine translation to compare a model's generated response to a single target response. We show that these metrics correlate very weakly with human judgements in the non-technical Twitter domain, and not at all in the technical Ubuntu domain. We provide quantitative and qualitative results highlighting specific weaknesses in existing metrics, and provide recommendations for future development of better automatic evaluation metrics for dialogue systems.

研究动机与目标

在没有监督任务标签的情况下，评估对话应答生成的无监督自动评估指标的有效性。
考察词汇重叠及基于嵌入的评估指标作为人类判断的预测指标。
比较跨领域对话数据集（Twitter 与 Ubuntu）中评估指标的性能。
提供定性和统计分析，以识别当前评估指标的弱点。
提出未来评估指标设计的建议，以更好地符合人类判断。

提出的方法

从 Twitter 和 Ubuntu 语料库收集来自多样化对话模型（检索式和生成式）的应答。
使用词汇重叠指标（BLEU、METEOR、ROUGE）和基于嵌入的指标（Greedy Matching、Embedding Average、Vector Extrema）将提议的应答与真实应答进行比较来评估。
使用 Pearson 和 Spearman 相关系数，在受控用户研究中将自动评估得分与人类判断相关。
对指标与人类意见不一致的示例进行定性分析，以识别失败模式。
分析指标对停用词/标点符号以及对应答长度差异的敏感性。
讨论局限性并为未来评估指标设计提供指南。

实验结果

研究问题

RQ1标准的无监督评估指标是否在不同领域中与对话应答质量的人类判断相关？
RQ2在 Twitter 与 Ubuntu 对话数据集中，词汇重叠和基于嵌入的评估指标在与人类判断的相关性方面表现如何？
RQ3当前对话系统自动评估指标的主要缺点是什么？
RQ4哪些方向可以产生与人类判断更一致的评估指标？

主要发现

BLEU 分数（包括 BLEU-4）在两个领域中与人类判断的相关性非常弱或没有相关性，只有在 Twitter 中有些微正相关。
基于嵌入的指标能够区分模型质量（最先进与基线），但与人类判断的相关性很弱或几乎没有相关，尤其是在 Ubuntu 上。
BLEU-2 与 embedding-average 提供了最佳但仍然较弱的相关性，且在去除停用词/标点或应答长度显著不同的情况下相关性会降低。
定性示例显示措辞差异可能误导基于嵌入的指标，需要情境感知的评估来捕捉语义充足性。
BLEU-3/4 常常给出接近零的分数，使其在对话评估中不可靠。
本文得出结论：当前指标不足以用于无监督对话评估，并呼吁开发更能更好反映人类判断的新指标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。