[论文解读] GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation.
GENIE 为文本生成引入了一个可扩展的人工评估排行榜,通过自动化跨多个质量维度(如流畅性、正确性和简洁性)的众包评估,同时将人工判断与自动指标进行对比。它为包括翻译、摘要生成、常识推理和机器理解在内的多样化文本生成任务提供了标准化、可扩展的评估方式。
Leaderboards have eased model development for many NLP datasets by standardizing their evaluation and delegating it to an independent external repository. Their adoption, however, is so far limited to tasks that can be reliably evaluated in an automatic manner. This work introduces GENIE, an extensible human evaluation leaderboard, which brings the ease of leaderboards to text generation tasks. GENIE automatically posts leaderboard submissions to crowdsourcing platforms asking human annotators to evaluate them on various axes (e.g., correctness, conciseness, fluency) and compares their answers to various automatic metrics. We introduce several datasets in English to GENIE, representing four core challenges in text generation: machine translation, summarization, commonsense reasoning, and machine comprehension. We provide formal granular evaluation metrics and identify areas for future research. We make GENIE publicly available and hope that it will spur progress in language generation models as well as their automatic and manual evaluation.
研究动机与目标
- 解决文本生成任务中缺乏标准化、可扩展的人工评估问题,这些问题通常因依赖自动指标而被排除在传统排行榜之外。
- 通过自动化将提交内容路由至众包平台,实现在多样化文本生成挑战中的一致性、可复现的人工评估。
- 在多个质量维度(如流畅性、简洁性、正确性)上对比人工判断,系统性地评估模型输出质量。
- 识别自动指标与人工判断之间的差距,为未来评估框架的发展提供指导。
- 提供一个公开可用、可扩展的平台,以加速文本生成及评估方法学的进步。
提出的方法
- 自动将模型输出提交至众包平台,进行预定义质量维度(如流畅性、正确性、简洁性)的人工评估。
- 设计并集成四个新的英文数据集,覆盖核心文本生成挑战:机器翻译、摘要生成、常识推理和机器理解。
- 实施正式的细粒度评估指标,以量化多个维度的文本质量人工判断结果。
- 将人工标注得分与现有自动指标得分进行对比,识别差异并评估指标的可靠性。
- 构建一个可扩展的排行榜基础设施,支持持续的提交、评估与多样化文本生成任务的基准测试。
- 确保平台的可复现性和公开可用性,以促进社区采纳与进一步研究。
实验结果
研究问题
- RQ1在流畅性、正确性和简洁性等不同质量维度上,人工对文本生成质量的判断如何变化?
- RQ2在多样化文本生成任务中,自动指标与人工标注判断的相关性有多大?
- RQ3能否有效部署一个自动化、可扩展的人工评估系统,以支持持续的模型基准测试?
- RQ4在评估文本生成时,人工评估与现有自动指标之间存在哪些关键差异?
- RQ5标准化、可扩展的人工评估排行榜如何提升文本生成模型的开发与评估?
主要发现
- GENIE 有效实现了对文本生成输出在多个质量维度上的自动化、大规模人工评估。
- 人工判断揭示了自动指标与人工对文本质量感知之间存在显著差异,尤其在流畅性和正确性方面。
- 该平台支持在多样化文本生成任务(包括翻译、摘要生成、常识推理和机器理解)中的一致且可复现的评估。
- 将人工评估与自动指标相结合,暴露了当前自动评估方法的局限性,凸显了改进方向。
- GENIE 提供了一个公开可用、可扩展的基础设施,支持持续的基准测试与社区驱动的文本生成模型评估。
- 该平台能够系统性地比较模型输出在多个质量轴上的表现,提供了比仅依赖自动指标更细致的评估视角。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。