QUICK REVIEW

[论文解读] G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment

Yang Liu, Dan Iter|arXiv (Cornell University)|Mar 29, 2023

Topic Modeling被引用 78

一句话总结

G-Eval 使用 GPT-4 以链式思维在表单填写评估框架中评估 NLG 输出，与此前指标相比在人类相关性更高，并揭示对 LLM 生成文本的偏见。

ABSTRACT

The quality of texts generated by natural language generation (NLG) systems is hard to measure automatically. Conventional reference-based metrics, such as BLEU and ROUGE, have been shown to have relatively low correlation with human judgments, especially for tasks that require creativity and diversity. Recent studies suggest using large language models (LLMs) as reference-free metrics for NLG evaluation, which have the benefit of being applicable to new tasks that lack human references. However, these LLM-based evaluators still have lower human correspondence than medium-size neural evaluators. In this work, we present G-Eval, a framework of using large language models with chain-of-thoughts (CoT) and a form-filling paradigm, to assess the quality of NLG outputs. We experiment with two generation tasks, text summarization and dialogue generation. We show that G-Eval with GPT-4 as the backbone model achieves a Spearman correlation of 0.514 with human on summarization task, outperforming all previous methods by a large margin. We also propose preliminary analysis on the behavior of LLM-based evaluators, and highlight the potential issue of LLM-based evaluators having a bias towards the LLM-generated texts. The code is at https://github.com/nlpyang/geval

研究动机与目标

推动改进的自动化 NLG 评估，超越基于参考的指标和廉价的 LLM 分数。
利用带有链式思维的大型语言模型，产生引导评分的详细评估步骤。
提供基于表单的评分范式，产生细粒度、连续的质量分数。
评估基于 LLM 的评估者在摘要和对话任务上的人类判断相关性。
调查面向 LLM 评估者对 LLM 生成文本的潜在偏见，以及对自我改进反馈环的影响。

提出的方法

基于提示的评估体系结构，包含三个组件：任务定义提示、具有详细评估步骤的链式思维（CoT），以及使用 LLM 输出的评分函数。
CoT 指导的评估：从提示+标准生成评估步骤，然后在表单填写提示中评估候选文本。
概率权重评分：使用 LLM 的输出 token 概率将预定义分数加权求和，实现连续等级。
将 GPT-4（G-Eval-4）和 GPT-3.5（G-Eval-3.5）作为骨干模型，配合解码设置来估计 token 概率。
在 SummEval（摘要）和 Topical-Chat/QAGS（对话与幻觉）基准上进行元评估，以评估与人类的一致性。

实验结果

研究问题

RQ1带有 CoT 的基于 LLM 的评估者在开放式 NLG 任务上的与人类判断的相关性有多高？
RQ2基于表单填写、概率加权的评估框架相较于现有指标是否提升了相关性和粒度？
RQ3模型规模（GPT-4 与 GPT-3.5）以及链式思维引导对摘要与对话任务中的评估性能有何影响？
RQ4基于 LLM 的评估者是否会对 LLM 生成的文本表现出偏见，以及这对其作为奖励信号的使用有何影响？

主要发现

G-Eval-4 在 SummEval 上与人类判断的 Spearman/Kendall-Tau 相关性高于先前评估者（例如在若干指标上超过 GPTScore 和 UniEval）。
CoT 指导在各维度上提升评估性能，启用 CoT 的 G-Eval 相对于无 CoT 的版本具有更高的相关性。
概率归一化产生更细粒度、连续的分数，并在某些场景中提高基于排序的相关性（如 Spearman），优于直接的整数打分。
更大的骨干模型（GPT-4）通常提供更强的人类对齐信号和鲁棒性，尽管结果随任务维度而异（例如 Topical-Chat 的某些维度敏感度较低）。
基于 LLM 的评估者可能倾向于 LLM 生成的文本，若用作模型改进的奖励信号，存在潜在的自我强化风险。
G-Eval 在摘要（SummEval）和对话（Topical-Chat、QAGS）基准上表现出色，常常超过最先进的基线。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。