Skip to main content
QUICK REVIEW

[论文解读] Evaluation of Text Generation: A Survey

Aslı Çelikyılmaz, Elizabeth Clark|arXiv (Cornell University)|Jun 26, 2020
Topic Modeling参考文献 295被引用 194
一句话总结

本文综述自然语言生成的评估方法,将其分为以人为本、自动化(无训练)和机器学习指标,并讨论挑战、任务和未来方向,给出摘要与长文本生成的示例评估。

ABSTRACT

The paper surveys evaluation methods of natural language generation (NLG) systems that have been developed in the last few years. We group NLG evaluation methods into three categories: (1) human-centric evaluation metrics, (2) automatic metrics that require no training, and (3) machine-learned metrics. For each category, we discuss the progress that has been made and the challenges still being faced, with a focus on the evaluation of recently proposed NLG tasks and neural NLG models. We then present two examples for task-specific NLG evaluations for automatic text summarization and long text generation, and conclude the paper by proposing future research directions.

研究动机与目标

  • 着重强调对NLG进行稳健评估的必要性,尤其是对神经生成系统。
  • 将评估方法分为三大类并分析其进展与挑战。
  • 讨论特定任务的评估示例(自动摘要与长文本生成)。
  • 提出未来研究方向以提升NLG评估的可比性和可靠性。

提出的方法

  • 三类类别:以人为本、未训练的自动指标、以及机器学习指标。
  • 在神经NLG系统背景下,分析各类别的优点与局限性。
  • 强调常见评估维度,如流畅性、充分性、事实性、连贯性,以及它们的衡量方式。
  • 通过自动摘要和长文本生成等任务示例,说明评估在实际中的应用。

实验结果

研究问题

  • RQ1NLG的主要评估范式有哪些,在可靠性、成本和可扩展性方面的对比如何?
  • RQ2在人为中心、自动和机器学习评估指标方面,针对神经NLG系统取得了哪些进展?
  • RQ3评估近期NLG任务与模型时面临的挑战与未来方向是什么?

主要发现

  • 以人为本的评估仍是金标准,但成本高且在不同研究之间不一致。
  • 未训练的自动指标广泛使用,依赖表层相似性如n-gram和分布相似性,但可能与人类判断不太一致。
  • 机器学习指标可以建模人类判断,但需要训练数据并需小心校准以避免偏见。
  • 本文提供了自动摘要和长文本生成等任务特定评估的示例,以说明实际应用和当前指标的差距。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。