Skip to main content
QUICK REVIEW

[论文解读] When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment

Chuting Yu, Hang Li|arXiv (Cornell University)|Feb 19, 2026
Information Retrieval and Search Behavior被引用 0
一句话总结

研究表明开放权重的 LLM 系统性高估相关性判断,在分级和成对设置中高估普遍存在,并且对 passage 长度和词汇线索高度敏感,而非真正的语义相关性。

ABSTRACT

Human relevance assessment is time-consuming and cognitively intensive, limiting the scalability of Information Retrieval evaluation. This has led to growing interest in using large language models (LLMs) as proxies for human judges. However, it remains an open question whether LLM-based relevance judgments are reliable, stable, and rigorous enough to match humans for relevance assessment. In this work, we conduct a systematic study of overrating behavior in LLM-based relevance judgments across model backbones, evaluation paradigms (pointwise and pairwise), and passage modification strategies. We show that models consistently assign inflated relevance scores -- often with high confidence -- to passages that do not genuinely satisfy the underlying information need, revealing a system-wide bias rather than random fluctuations in judgment. Furthermore, controlled experiments show that LLM-based relevance judgments can be highly sensitive to passage length and surface-level lexical cues. These results raise concerns about the usage of LLMs as drop-in replacements for human relevance assessors, and highlight the urgent need for careful diagnostic evaluation frameworks when applying LLMs for relevance assessments. Our code and results are publicly available.

研究动机与目标

  • 在多模型和多评估范式下,评估基于 LLM 的相关性判断的高估现象的普遍性。
  • 探究高估是随机波动还是系统性偏差。
  • 检查 passage 长度、句法和词汇线索对 LLM 判定的影响。
  • 为使用 LLM 作为相关性评估者的健壮评估框架提供诊断和指导。

提出的方法

  • 在 TREC DL2019 和 DL2020 数据集上评估四个开权重 LLM(Llama-3.2-3B, Gemma-3-4B, Mistral-7B, Qwen-3-8B)。
  • 使用 UMBRELA 风格提示应用点对点(二元和分级)以及成对评估设置。
  • 衡量标签高估、Cohen’s kappa 和令牌级置信度。
  • 进行保语义结构变体(主动/被动、摘要/扩展)和词汇/语义变体插入(SEM, LEX, QRY)以探测对线索的敏感性。
  • 分析判断质量的两个方面:标签膨胀和置信模式。
  • 通过受控 passage 改写来验证含义保持并评估词汇锚定效应。

实验结果

研究问题

  • RQ1LLM 基于相关性判断在跨数据集和模型骨架上对标签的高估程度有多大?
  • RQ2LLM 判定的可靠性在点对点与成对评估设置之间有何差异?
  • RQ3LLM 判定是否更受表面线索(长度、句法、词汇术语)驱动,而非语义相关性?
  • RQ4诊断性提示词与 passage 变更实验是否能揭示 LLM 相关性判断中的系统性偏差?

主要发现

  • 高估在所有模型、数据集和评估范式中普遍存在,分级相关性的膨胀强于二元判断。
  • 对错误或模糊判断的置信度依然极高,显示不论正确与否都存在过度自信。
  • 成对判断表现出高并列率和缺乏辨别力,只有在表达明确偏好时才有较高准确性;许多情况下出现并列而非清晰排序。
  • passage 长度显著影响判断,较长的 passage 更可能被评为更相关,即使语义保持不变。
  • 词汇线索驱动判断:插入查询词或语义弱变体可能促成高估;语义保持的修改未必能避免偏差;QRY 插入可在非相关 passage 上触发“完全相关”的标签。
  • 主动语态 vs 被动语态没有系统性偏好;句法变体影响有限,而长度和词汇重叠具有显著影响。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。