QUICK REVIEW

[论文解读] The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics

Sebastian Gehrmann, Tosin Adewumi|arXiv (Cornell University)|Feb 2, 2021

Topic Modeling参考文献 111被引用 52

一句话总结

GEM 引入了一个面向 NLG 的活生生的多语言基准，聚焦于生成、评估和度量标准，具有开放的数据卡、挑战集和灵活的评估框架。

ABSTRACT

We introduce GEM, a living benchmark for natural language Generation (NLG), its Evaluation, and Metrics. Measuring progress in NLG relies on a constantly evolving ecosystem of automated metrics, datasets, and human evaluation standards. Due to this moving target, new models often still evaluate on divergent anglo-centric corpora with well-established, but flawed, metrics. This disconnect makes it challenging to identify the limitations of current models and opportunities for progress. Addressing this limitation, GEM provides an environment in which models can easily be applied to a wide set of tasks and in which evaluation strategies can be tested. Regular updates to the benchmark will help NLG research become more multilingual and evolve the challenge alongside models. This paper serves as the description of the data for which we are organizing a shared task at our ACL 2021 Workshop and to which we invite the entire NLG community to participate.

研究动机与目标

提供一个面向 NLG 的活生生、多语言基准生态系统，随模型和评估标准而演进。
实现综合评估，结合人为与自动化度量，超越单一分数。
通过数据卡和标准化评估协议促进负责任的数据使用。
引入跨语言和生成任务的多样化高质量数据集，以减少以英语为中心的偏见。
提供挑战集，以在有针对性的条件下探测模型行为和泛化能力。

提出的方法

策划一个初始的 11 个 NLG 数据集，覆盖摘要、对话、数据转文本和简化，共计 18 种语言。
采用三步数据集选择过程（提案、标准、投票），在资源约束下最大化效用。
创建面向 NLG 的数据卡，记录数据集特征、局限性和真实世界用例。
开发挑战集类型（输入扰动、子集划分、时间位移数据），以诊断超越独立同分布测试集的模型行为。
概述包含基线模型（例如 T5、BART、mT5、mBART）在内的实验设置，以及扩展自动化度量的框架。
将 GEM 定位为一个活生生的基准，随时间用更难的任务替换已解决的任务，并支持新度量。

实验结果

研究问题

RQ1一个活生生的、多语言的基准如何更好地捕捉超越传统度量的 NLG 评估多方面目标？
RQ2哪些数据集组成、语言与任务组合能够最大化 NLG 模型的鲁棒性和泛化能力？
RQ3挑战集如何揭示标准测试集错过的模型局限性与偏见？
RQ4为确保可重复性和负责任使用，需要哪些数据文档与人工评估标准？
RQ5在多样化的 NLG 任务和语言中，自动化度量与人类判断的相关性如何？

主要发现

GEM 提出一个多样化、多语言的数据集集合，涵盖 18 种语言及摘要、对话、数据转文本和简化等任务。
数据集通过数据卡进行整理，以记录局限性和真实世界用例，支持负责任的研究。
挑战集设计用于探测数值变异、属性顺序、拼写错误、回译和输入结构等。
描述了一种活生生的基准结构，使数据、测试集和度量随着领域发展而更新。
讨论了基线建模方法（如 T5、BART、mT5、mBART），以确立评估起点，并计划将度量扩展到超越传统 n-gram 重叠（BLEU/ROUGE）。
论文强调通过在人类和自动度量之间进行深入评估来避免排行榜驱动的优化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。