[論文レビュー] Who can we trust? LLM-as-a-jury for Comparative Assessment
BT-σを導入する。Bradley–Terryモデルの judge-aware 拡張で、ペアwise LLM比較からアイテムランキングと judge の信頼性を同時推定し、単純平均や校正よりも集約を改善する。
Large language models (LLMs) are increasingly applied as automatic evaluators for natural language generation assessment often using pairwise comparative judgements. Existing approaches typically rely on single judges or aggregate multiple judges assuming equal reliability. In practice, LLM judges vary substantially in performance across tasks and aspects, and their judgment probabilities may be biased and inconsistent. Furthermore, human-labelled supervision for judge calibration may be unavailable. We first empirically demonstrate that inconsistencies in LLM comparison probabilities exist and show that it limits the effectiveness of direct probability-based ranking. To address this, we study the LLM-as-a-jury setting and propose BT-sigma, a judge-aware extension of the Bradley-Terry model that introduces a discriminator parameter for each judge to jointly infer item rankings and judge reliability from pairwise comparisons alone. Experiments on benchmark NLG evaluation datasets show that BT-sigma consistently outperforms averaging-based aggregation methods, and that the learned discriminator strongly correlates with independent measures of the cycle consistency of LLM judgments. Further analysis reveals that BT-sigma can be interpreted as an unsupervised calibration mechanism that improves aggregation by modelling judge reliability.
研究の動機と目的
- 単一のLLM評価や均一重みの judge 集約が比較的生成(NLG)評価において信頼性を欠くことを動機づける。
- ペアwise 比較のみからアイテムランキングと judge の信頼性を学習する確率的な judge-aware ランキングモデルを提案する。
- BT-σ が平均化ベースの手法や教師付きキャリブレーションよりも benchmark NLG データセットで優れていることを示す。
- 学習済み judge discriminators を judge の信頼性と一貫性の無監督指標として分析する。
提案手法
- ソフトBradley–Terryフレームワークでペアwise 比較をモデル化し、グローバルなアイテムランキングを得る。
- 各 judge 特異的 discriminators σ_k を導入し、P_k(i≻j)=σ((s_i−s_j)/σ_k) を満たすように、ラベルなしで s_i と σ_k を同時に学習する。
- p'_{ij} = 0.5(p_{ij}+(1−p_{ji})) を満たすように偏りを除去するデバiasリング手順を適用する。
- 評価観点ごとに信頼性が変わるような σ_k,asp を導入することで aspect-dependent なディスクリミネータを拡張することをオプションで検討する。
- SummEval と Topical-Chat で人間の判断と Spearman 相関を用いて Avg-Prob、hard BT、soft BT、Temp-BT と比較する。
- BT-σ が信頼性の高い judge を上方へ、ノイズの多い信号を下方へウェイトすることでロバスト性を改善することを示す。
実験結果
リサーチクエスチョン
- RQ1LLM のペアワイズ確率の不整合が判断の集約品質にどのように影響するか?
- RQ2人間のラベルなしで、judge-aware BT モデルがアイテムランキングと judge の信頼性を同時推定できるか?
- RQ3BT-σ は参照なし NLG 評価ベンチマークで平均化およびキャリブレーションのベースラインを一貫して超えるか?
- RQ4学習された judge discriminators は judge の信頼性とサイクル一貫性の独立な指標と相関するか?
主な発見
| Dataset | Method | COH | CON | FLU | REL | ALL | CNT | ENG | NAT |
|---|---|---|---|---|---|---|---|---|---|
| SummEval | Avg-Prob | 52.55 | 41.75 | 36.21 | 50.09 | 45.15 | |||
| SummEval | hard BT | 51.26 | 45.72 | 40.07 | 52.32 | 47.34 | |||
| SummEval | soft BT | 53.94 | 47.86 | 42.69 | 53.11 | 49.40 | |||
| SummEval | Temp-BT | 56.21 | 47.40 | 41.88 | 55.14 | 60.65 | |||
| SummEval | BT-σ | 57.38 | 47.47 | 42.99 | 54.15 | 60.56 | |||
| SummEval | BT-σ-asp | 57.36 | 47.56 | 43.08 | 54.56 | 60.71 | |||
| SummEval | hard BT-σ | 53.02 | 47.08 | 40.44 | 52.69 | 58.90 | |||
| Topical-Chat | Avg-Prob | 56.01 | 49.39 | 61.62 | 51.53 | ||||
| Topical-Chat | hard BT | 59.31 | 50.25 | 62.57 | 56.90 | ||||
| Topical-Chat | soft BT | 60.05 | 53.87 | 61.87 | 58.20 | ||||
| Topical-Chat | Temp-BT | 56.88 | 52.21 | 63.86 | 60.65 | ||||
| Topical-Chat | BT-σ | 59.02 | 56.30 | 63.49 | 60.56 | ||||
| Topical-Chat | BT-σ-asp | 58.94 | 54.92 | 65.58 | 60.71 | ||||
| Topical-Chat | hard BT-σ | 60.89 | 53.45 | 67.36 | 58.90 |
- BT ベースの集約は大多数のモデルと側面で直接の平均化よりランキングの安定性を向上させる。
- BT-σ は SummEval と Topical-Chat の集約評価でsoft BT や hard BT を一貫して上回る。
- 学習済み judge discriminators 1/σ_k は judge の性能と回転一貫性の低さの少ない従属を正の相関で示し、効果的な無監督の信頼性信号を示す。
- BT-σ は確率信号がノイズの多い場合にも頑健で、信頼性の低い judge を下方重み付けする。
- BT-σ-asp はアスペクトごとの利益がごくわずかで、実務上は単一の judge discriminant で十分な可能性がある。
- Hard BT-σ は非常に不整合な設定(例:Topical-Chat の ENG で)で soft Variant よりも優れる場合がある一方、SummEval のような中程度の不整合では soft BT-σ が優れる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。