QUICK REVIEW

[논문 리뷰] When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment

Chuting Yu, Hang Li|arXiv (Cornell University)|2026. 02. 19.

Information Retrieval and Search Behavior인용 수 0

한 줄 요약

연구는 open-weight LLM이 관련 판단을 체계적으로 과대평가하며, 등급형과 쌍(pairwise) 설정에서 과대평가가 널리 퍼져 있고, 진정한 의미론적 관련성보다 구절 길이와 어휘 신호에 더 민감하다는 것을 보여준다.

ABSTRACT

Human relevance assessment is time-consuming and cognitively intensive, limiting the scalability of Information Retrieval evaluation. This has led to growing interest in using large language models (LLMs) as proxies for human judges. However, it remains an open question whether LLM-based relevance judgments are reliable, stable, and rigorous enough to match humans for relevance assessment. In this work, we conduct a systematic study of overrating behavior in LLM-based relevance judgments across model backbones, evaluation paradigms (pointwise and pairwise), and passage modification strategies. We show that models consistently assign inflated relevance scores -- often with high confidence -- to passages that do not genuinely satisfy the underlying information need, revealing a system-wide bias rather than random fluctuations in judgment. Furthermore, controlled experiments show that LLM-based relevance judgments can be highly sensitive to passage length and surface-level lexical cues. These results raise concerns about the usage of LLMs as drop-in replacements for human relevance assessors, and highlight the urgent need for careful diagnostic evaluation frameworks when applying LLMs for relevance assessments. Our code and results are publicly available.

연구 동기 및 목표

여러 모델 및 평가 패러다임에서 LLM 기반 관련 판단에서 과대평가의 유병률을 평가한다.
과대평가가 무작위 변화인지 아니면 체계적 편향인지 조사한다.
구절 길이, 구문, 어휘 신호가 LLM 판단에 미치는 영향을 분석한다.
LLMs를 관련 판단자로 사용할 때 강인한 평가 프레임워크를 위한 진단 및 지침을 제공한다.

제안 방법

TREC DL2019 및 DL2020 데이터셋에 대해 four open-weight LLMs (Llama-3.2-3B, Gemma-3-4B, Mistral-7B, Qwen-3-8B)를 평가한다.
UMBRELA-style 프롬프트를 사용하여 포인트와이즈(pointswise, 이진 및 등급) 및 페어와이즈(pairwise) 평가 설정을 적용한다.
레이블 과대평가, Cohen’s kappa, 토큰 수준의 신뢰도를 측정한다.
의미 보존적 구조적 변형(active/passive, summarize/expand) 및 어휘/의미 변형 삽입(SEM, LEX, QRY)을 적용해 단서에 대한 민감도를 탐구한다.
판단 품질의 두 가지 측면(레이블 인플레이션 및 신뢰도 패턴)을 분석한다.
의미 보존을 검증하고 어휘적 고정 효과를 평가하기 위해 제어된 구절 재작성(rewrite)을 사용한다.

실험 결과

연구 질문

RQ1LLM 기반 관련 판단이 데이터셋 및 백본 모델 전반에서 인간 판단에 비해 레이블을 얼마나 과대평가하는가?
RQ2포인트와이즈와 페어와이즈 평가 설정 간 LLM 판단 신뢰도는 어떻게 다른가?
RQ3LLM 판단이 의미론적 관련성보다 표면적 단서(길이, 구문, 어휘 용어)에 더 좌우되는가?
RQ4진단적 프롬프트 기반 및 구절 변형 실험이 LLM 관련 판단의 체계적 편향을 드러낼 수 있는가?

주요 결과

과대평가는 모든 모델, 데이터셋, 평가 패러다임에서 널리 나타나며, 등급 관련 관련성은 이진 판단보다 더 강하게 과대평가한다.
잘못되었거나 모호한 판단에 대한 신뢰도는 매우 높게 남아 있어, 정답 여부와 무관하게 과신이 나타난다.
페어와이즈 판단은 높은 동률(tie) 비율과 구별력 부족을 보이며, 결정적 선호가 표현될 때만 정확도가 좋고, 많은 경우 명확한 순서가 아니라 동률로 끝난다.
구절 길이가 판단에 강하게 편향을 주며, 길이가 긴 구절이 더 관련성이 높게 평가될 가능성이 높다(의미가 보존될 때도 마찬가지).
어휘 단서가 판단을 좌우한다: 쿼리 용어나 의미적으로 약한 변형을 삽입하면 과대평가를 촉진할 수 있고, 의미 보존적 변화는 편향을 막지 못할 수 있다; QRY 삽입은 비관련 구절에서도 완전히 관련 있는 레이블을 유도할 수 있다.
능동태와 수동태 사이에 체계적 선호는 없으며, 구문적 변화의 효과는 제한적이고, 길이와 어휘 중첩이 상당한 영향을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.