QUICK REVIEW

[论文解读] ACUTE-EVAL: Improved Dialogue Evaluation with Optimized Questions and Multi-turn Comparisons

Margaret Li, Jason Weston|arXiv (Cornell University)|Sep 6, 2019

Topic Modeling参考文献 27被引用 79

一句话总结

ACUTE-EVAL 引入一种对话评估的成对、多轮对话方法，使用优化问题和可选自聊以提高相对于 Likert 量表在评估对话模型的可靠性和成本效益。

ABSTRACT

While dialogue remains an important end-goal of natural language research, the difficulty of evaluation is an oft-quoted reason why it remains troublesome to make real progress towards its solution. Evaluation difficulties are actually two-fold: not only do automatic metrics not correlate well with human judgments, but also human judgments themselves are in fact difficult to measure. The two most used human judgment tests, single-turn pairwise evaluation and multi-turn Likert scores, both have serious flaws as we discuss in this work. We instead provide a novel procedure involving comparing two full dialogues, where a human judge is asked to pay attention to only one speaker within each, and make a pairwise judgment. The questions themselves are optimized to maximize the robustness of judgments across different annotators, resulting in better tests. We also show how these tests work in self-play model chat setups, resulting in faster, cheaper tests. We hope these tests become the de facto standard, and will release open-source code to that end.

研究动机与目标

解决开放域对话评估中的挑战，减少对昂贵且不一致的人类判断的依赖。
开发一个鲁棒的成对、多轮评估框架，能够在不受对话流程影响的情况下单独评估说话者质量。
优化问题措辞，以在不同评估维度上最大化跨注注者的一致性。
展示对人机对话和自聊的适用性，并在多个任务上对最先进模型进行基准测试。

提出的方法

提出 Acute-eval：对两个完整对话进行成对比较，突出一个说话者，并就目标质量进行提问（例如吸引力、趣味性、拟人性、知识性）。
使用二元判断（说话者A对比说话者B），统计显著性通过二项检验衡量。
同时探索人机对话和自聊，以降低数据收集成本，同时保持可靠性。
通过测试多种措辞系统性地优化问题表达，选择跨注注者一致性最高的表述。
在多个评估轴上将各种 PersonaChat 和 Wizard of Wikipedia 模型与人类表现进行对比基准测试。

实验结果

研究问题

RQ1Acute-eval 是否在多样化对话任务中产生比多轮 Likert 更稳健、更敏感的判断？
RQ2经过优化的成对问题是否能带来更高的跨注注者一致性以及更快、成本更低的标注？
RQ3自聊在识别模型优点和弱点方面与人机对话相比有何差异？
RQ4在吸引力、趣味性、拟人性和知识性等维度上，最先进模型的相对排序如何？
RQ5在优化问题条件下，基于检索的知识或知识驱动的生成哪种更优？

主要发现

优化问题实现了跨注注者一致性高（例如对趣味性高达 86.7%）并使基准测试更快、成本更低。
Acute-eval 整体上给出一致的模型排名并揭示在某些情况下 Likert 评价可能忽略的显著差异。
检索模型（如 Polyencoder）在 PersonaChat 的吸引力基准上能超越生成模型，挑战了生成模型的优势假设。
自聊提供与人机对话相似的排序，并显著降低数据收集成本，尽管某些模型（如 Hugging Face）在自聊中表现出退化现象。
在 Wizard of Wikipedia 流程中，带知识的检索（RK）通常优于其他配置，知识启用的检索提高了生成模型的知识性评估。
Acute-eval 相对于 Likert 在多次比较中显示出更高的敏感性并且达到显著性所需的人力工时更少。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。