QUICK REVIEW

[论文解读] LLM-based NLG Evaluation: Current Status and Challenges

Mingqi Gao, Xinyu Hu|arXiv (Cornell University)|Feb 2, 2024

Fault Detection and Control Systems被引用 14

一句话总结

对四种基于LLM的NLG评估范式（LLM-derived metrics、prompting、fine-tuning，以及人机协作）及其优缺点和未来挑战的全面综述。

ABSTRACT

Evaluating natural language generation (NLG) is a vital but challenging problem in natural language processing. Traditional evaluation metrics mainly capturing content (e.g. n-gram) overlap between system outputs and references are far from satisfactory, and large language models (LLMs) such as ChatGPT have demonstrated great potential in NLG evaluation in recent years. Various automatic evaluation methods based on LLMs have been proposed, including metrics derived from LLMs, prompting LLMs, fine-tuning LLMs, and human-LLM collaborative evaluation. In this survey, we first give a taxonomy of LLM-based NLG evaluation methods, and discuss their pros and cons, respectively. Lastly, we discuss several open problems in this area and point out future research directions.

研究动机与目标

提供基于LLM的NLG评估方法的分类法（LLM-derived metrics、prompting、fine-tuning，以及人机协作）。
讨论每个类别的优点和局限性及其与传统度量的关系。
探索人机协作作为一种稳健评估范式。
识别开放问题（稳健性、效率、公平性、可重复性），并提出未来研究方向。

提出的方法

基于LLMs在NLG评估中的使用方式，将现有工作分为四类。
讨论基于嵌入的和基于概率的LLM-derived metrics及其权衡。
总结提示策略，包括评分、比较、排序、布尔问答和错误分析，并考虑任务指令和输入内容因素。
回顾在开源LLM上进行评估的微调方法，包括数据构建、评估标准和性能考量。
讨论人机协同评估框架以及更广泛的评估任务，如测试、调试和审计，并给出示例。

实验结果

研究问题

RQ1基于LLM的NLG评估的主要方法有哪些，它们在概念上和实践中有何不同？
RQ2LLM-derived metrics、prompting、fine-tuning 和 human-LLM collaboration 在NLG评估中的优点和局限性是什么？
RQ3人类与LLM协作如何提升NLG评估的可靠性和与人类判断的一致性？
RQ4有哪些开放挑战（稳健性、效率、公平性、可重复性）及未来研究的有前景方向？

主要发现

基于LLM的NLG评估可以分为四类：LLM-derived metrics、prompting LLMs、fine-tuning LLMs，以及人机协作评估。
基于嵌入的和基于概率的LLM-derived metrics与人类判断的相关性通常强于传统指标，但在稳健性和效率方面存在问题。
提示LLMs在许多任务中与人类判断的相关性很强，并且能够提供解释，但可能受到位置偏差及其他弱点的影响。
在高质量评估数据上对开源LLM进行微调可以实现类似GPT-4的性能，成本更低且可重复性更好，尽管偏见和数据构建挑战仍然存在。
人机协作可以提高可靠性并提供可解释性，像COEVAL这样的平台显示出实际效益，同时需要持续的人类监督。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。