QUICK REVIEW

[论文解读] Evaluation of Text Generation: A Survey

Aslı Çelikyılmaz, Elizabeth Clark|arXiv (Cornell University)|Jun 26, 2020

Topic Modeling参考文献 295被引用 194

一句话总结

本文综述自然语言生成的评估方法，将其分为以人为本、自动化（无训练）和机器学习指标，并讨论挑战、任务和未来方向，给出摘要与长文本生成的示例评估。

ABSTRACT

The paper surveys evaluation methods of natural language generation (NLG) systems that have been developed in the last few years. We group NLG evaluation methods into three categories: (1) human-centric evaluation metrics, (2) automatic metrics that require no training, and (3) machine-learned metrics. For each category, we discuss the progress that has been made and the challenges still being faced, with a focus on the evaluation of recently proposed NLG tasks and neural NLG models. We then present two examples for task-specific NLG evaluations for automatic text summarization and long text generation, and conclude the paper by proposing future research directions.

研究动机与目标

着重强调对NLG进行稳健评估的必要性，尤其是对神经生成系统。
将评估方法分为三大类并分析其进展与挑战。
讨论特定任务的评估示例（自动摘要与长文本生成）。
提出未来研究方向以提升NLG评估的可比性和可靠性。

提出的方法

三类类别：以人为本、未训练的自动指标、以及机器学习指标。
在神经NLG系统背景下，分析各类别的优点与局限性。
强调常见评估维度，如流畅性、充分性、事实性、连贯性，以及它们的衡量方式。
通过自动摘要和长文本生成等任务示例，说明评估在实际中的应用。

实验结果

研究问题

RQ1NLG的主要评估范式有哪些，在可靠性、成本和可扩展性方面的对比如何？
RQ2在人为中心、自动和机器学习评估指标方面，针对神经NLG系统取得了哪些进展？
RQ3评估近期NLG任务与模型时面临的挑战与未来方向是什么？

主要发现

以人为本的评估仍是金标准，但成本高且在不同研究之间不一致。
未训练的自动指标广泛使用，依赖表层相似性如n-gram和分布相似性，但可能与人类判断不太一致。
机器学习指标可以建模人类判断，但需要训练数据并需小心校准以避免偏见。
本文提供了自动摘要和长文本生成等任务特定评估的示例，以说明实际应用和当前指标的差距。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。