Skip to main content
QUICK REVIEW

[论文解读] Style Over Substance: Evaluation Biases for Large Language Models

Minghao Wu, Alham Fikri Aji|arXiv (Cornell University)|Jul 6, 2023
Topic Modeling被引用 9
一句话总结

该论文揭示了来自人类和LLM评审的LLM输出评估偏差,并提出多 Elo 评分系统(MERS)来在不同维度上评估文本,在 GPT-4 评估中的事实准确性有所提升,但在众包评估中未见显著提升。

ABSTRACT

As large language models (LLMs) continue to advance, accurately and comprehensively evaluating their performance becomes increasingly challenging. Ranking the relative performance of LLMs based on Elo ratings, according to human judgment, is gaining more popularity. However, the extent to which humans and LLMs are capable evaluators remains uncertain. This study investigates the behavior of crowd-sourced and expert annotators, as well as LLMs, when comparing outputs from different models. To achieve this, we curate a dataset of intentionally flawed machine-generated answers. Our findings reveal a concerning bias in the evaluation process, as answers with factual errors are rated more favorably than answers that are too short or contained grammatical errors. To address this issue, we propose independently evaluating machine-generated text across multiple dimensions, rather than merging all the evaluation aspects into a single score. We instantiate this idea with the Elo rating system, resulting in the Multi-Elo Rating System (MERS). Empirical results from our study reveal that this proposed approach significantly enhances the quality of LLM-based evaluations, particularly in terms of factual accuracy. However, there is no significant improvement in crowd-sourced-based evaluations, indicating the need for further investigation.

研究动机与目标

  • 调查众包、专家和 LLM 评审如何评估来自不同模型的输出。
  • 识别评估过程中的偏差,包括长度偏差和顺序效应。
  • 提出并在 Elo 风格评分下验证一个多维评估框架(MERS)。

提出的方法

  • 通过 GPT-4 提示变换回答长度、语言水平和事实准确性,生成 12 种模型设置。
  • 从众包标注员、专家标注员、GPT-4、Claude-1 在 40 道问题(5280 次比较)中收集成对评估。
  • 在不同评审类型下计算 Elo 评分,并分析评注者间一致性(Cohen’s kappa)。
  • 以三个维度实例化多 Elo 评分系统(MERS):准确性、帮助性、语言,独立评估。
  • 比较单一分数与多维评估方法,并分析偏差来源(长度、顺序、事实核查)。

实验结果

研究问题

  • RQ1人类与 LLM 是否同等评估模型输出,还是存在系统性评估偏差?
  • RQ2回答长度、语言能力、事实准确性等因素如何影响不同评审类型的判断?
  • RQ3将评估分解为多维度(MERS)是否能提高 LLM 评估的质量与可靠性?
  • RQ4与专家或 LLM 评审相比,众包评估在 LLM 基准测试中的可靠性如何?
  • RQ5多维 Elo 框架是否比单一总体分数更能真实反映输出质量?

主要发现

  • 人类(众包与专家)在事实核查上不如 LLM 评审显得果断且更少进行彻底核查;LLMs 更具确定性,倾向于偏好更长的回答。
  • 更长的文本得到人类与 LLM 的偏好,这可能让评估倾向于冗长而非简洁且事实准确的输出。
  • 众包标注者表现出踌躇和较弱的事实核查,而专家表现出更强但并非无误的核查;LLM 评审能发现错误但不完全一致。
  • 单一统一分数不足以捕捉输出质量;维度化评估揭示准确性、帮助性、语言等方面的细微强项与弱点。
  • MERS 在基于 GPT-4 的评估中显著提升事实准确性,而众包评估中提升有限。
  • 评注者间一致性对 GPT-4 和 Claude-1 属中等,而对其他组合仅为轻度一致,表明人类判断存在多样性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。