[論文レビュー] When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment
要約: この研究は、オープンウェイトのLLMが関連性判断を体系的に過大評価しており、過大評価はグレード付きおよびペアワイズ設定の双方で広く見られ、真の意味的関連性よりも passage の長さや語彙手が感度が高いことを示している。
Human relevance assessment is time-consuming and cognitively intensive, limiting the scalability of Information Retrieval evaluation. This has led to growing interest in using large language models (LLMs) as proxies for human judges. However, it remains an open question whether LLM-based relevance judgments are reliable, stable, and rigorous enough to match humans for relevance assessment. In this work, we conduct a systematic study of overrating behavior in LLM-based relevance judgments across model backbones, evaluation paradigms (pointwise and pairwise), and passage modification strategies. We show that models consistently assign inflated relevance scores -- often with high confidence -- to passages that do not genuinely satisfy the underlying information need, revealing a system-wide bias rather than random fluctuations in judgment. Furthermore, controlled experiments show that LLM-based relevance judgments can be highly sensitive to passage length and surface-level lexical cues. These results raise concerns about the usage of LLMs as drop-in replacements for human relevance assessors, and highlight the urgent need for careful diagnostic evaluation frameworks when applying LLMs for relevance assessments. Our code and results are publicly available.
研究の動機と目的
- 複数のモデルと評価パラダイムにわたって、LLMベースの関連性判断における過大評価の有病率を評価する。
- 過大評価がランダムな変動か体系的な偏りかを調査する。
- passage の長さ、構文、語彙手がLLM判断に与える影響を検討する。
- LLMを関連性評価者として使用する際の堅牢な評価フレームワークの診断とガイダンスを提供する。
提案手法
- 4つのオープンウェイトLLM(Llama-3.2-3B、Gemma-3-4B、Mistral-7B、Qwen-3-8B)をTREC DL2019およびDL2020データセットで評価する。
- UMBRELAスタイルのプロンプトを用いて、ポイントワイズ(バイナリおよびグレード付き)およびペアワイズ評価設定を適用する。
- ラベル過大評価、Cohen’s κ、トークンレベルの信頼度を測定する。
- 意味を保存する構造的変化(能動/受動、要約/展開)と語彙/意味的変異挿入(SEM、LEX、QRY)を実施して手掛かりへの感度を調べる。
- 判断品質の2つの側面(ラベルのインフレと信頼度パターン)を分析する。
- 意味保持を検証し語彙アンカー効果を評価するための統制された passage の書き換えを用いる。
実験結果
リサーチクエスチョン
- RQ1LLMベースの関連性判断は、データセットとモデルバックボーン全体で、人間判断と比較してラベルをどの程度過大評価するのか?
- RQ2ポイントワイズとペアワイズの評価設定間でLLM判断の信頼性はどのように異なるのか?
- RQ3LLM判断は意味的関連性よりも表面的手掛かり(長さ、構文、語彙語)が動機づけとなっているのか?
- RQ4診断用プロンプトベースと passage 変動実験は、LLMの関連性判断における体系的偏りを明らかにできるのか?
主な発見
- 過大評価はすべてのモデル、データセット、評価パラダイムで蔓延しており、グレード付きの関連性の方がバイナリ判断よりも過大評価を強く示す。
- 正しくない判断やあいまいな判断に対する信頼度は非常に高く、正否に関係なく過信が示される。
- ペアワイズ判断はタイの割合が高く識別能力に欠けることが多く、決定的な好みが表れた場合にのみ高い正確性を示す;多くのケースで優越性が明確でなく、結論的な順序が得られない。
- passage の長さが判断を強くバイアスし、長い passage が意味が保持されていてもより関連性が高く評価される傾向がある。
- 語彙手が判断を動かす:クエリ語を挿入したり意味的に弱い変異を挿入すると過大評価が生じやすく、意味保持の変更はバイアスを防ぐとは限らない;QRY挿入は非関連 passage に対しても完全に関連性が高いラベルを引き起こすことがある。
- 能動態と受動態には体系的な好みは見られず、統計的には構文変化は限定的な影響を与える一方、長さと語彙の重複は実質的な影響を持つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。