[論文レビュー] CARE: Confounder-Aware Aggregation for Reliable LLM Evaluation
CAREは共因子を意識した集約を提供(CARE-SVDとCARE-Tensor)、潜在品質と共有共因子をモデリングして、多LLM判定評価を改善。識別可能性の理論と12ベンチマークでの強力な実証利得。
LLM-as-a-judge ensembles are the standard paradigm for scalable evaluation, but their aggregation mechanisms suffer from a fundamental flaw: they implicitly assume that judges provide independent estimates of true quality. However, in practice, LLM judges exhibit correlated errors caused by shared latent confounders -- such as verbosity, stylistic preferences, or training artifacts -- causing standard aggregation rules like majority vote or averaging to provide little gain or even amplify systematic mistakes. To address this, we introduce CARE, a confounder-aware aggregation framework that explicitly models LLM judge scores as arising from both a latent true-quality signal and shared confounding factors. Rather than heuristically re-weighting judges, CARE separates quality from confounders without access to ground-truth labels. We provide theoretical guarantees for identifiability and finite-sample recovery under shared confounders, and we quantify the systematic bias incurred when aggregation models omit confounding latent factors. Across 12 public benchmarks spanning continuous scoring, binary classification, and pairwise preference settings, CARE improves aggregation accuracy, reducing error by up to 26.8\%. Code is released in \href{https://github.com/SprocketLab/CARE}{https://github.com/SprocketLab/CARE}.
研究の動機と目的
- 共有共因子によって相関した誤りを引き起こす可能性があるため、複数のLLM判定の principled な集約の必要性を動機付ける。
- GROUND-TRUTHラベルなしで潜在的な真の品質と共有共因子を分離するための CARE を提案する。
- 異なるデータレジームに対応する2つの実装(CARE-SVDとCARE-Tensor)を開発する。
- 共因子が存在する場合の識別可能性と有限サンプル保証を理論的に提供する。
- 多様なベンチマークでベースラインを上回る実証的改善を示す。
提案手法
- Judge のスコアを潜在的な真の品質と共有共因子から生じるものとして、疎グラフィカルモデル内にモデリングする。
- Judge-スコアの精度を疎成分と低ランク成分に分解して潜在構造を特定する(SVD経路)または、評価者をビューに分割してテンソル分解を適用する(Tensor経路)。
- CARE-SVD: 結합ガウス仮定の下で疎+低ランク分解を利用し、品質ロードingsを回復しQをE[Q|J]として推定する。
- CARE-Tensor: 疎構造により評価者を分割し、グループから三階モーメントテンソルを構築し、CP/テンソル分解を適用して平均 μ_qc と混合重み π_qc を回復する。
- 真の品質因子を同定するための対称性破壊を実施し、同定された品質因子ロードに基づいて集約を重み付けする。
- 両方の実装について同定可能性と有限サンプルの保証を理論的に提供し、ミス特性に対する頑健性を議論する。

実験結果
リサーチクエスチョン
- RQ1共因子を明示的にモデリングすることで、GROUND-TRUTHラベルなしで集約精度を改善できるか。
- RQ2CAREの下で潜在的品質と共因子が識別可能で回復可能である条件は何か。
- RQ3CARE-SVDとCARE-Tensorは、連続スコア、2値分類、好み設定のいずれにおいて、従来のベースラインと比較してどのように機能するか。
- RQ4識別可能性・サンプル複雑度など、CAREの潜在因子回復を支える理論的保証は何か。
- RQ5CARE法は潜在的共因子を解釈可能に示し、敵対的または偏見のある判断に対する頑健性を向上させるか。
主な発見
| Method | ASSET | FeedbackQA | Review-5K | Summarize | UltraFeedback | Yelp |
|---|---|---|---|---|---|---|
| MV | 31.153±0.000 | 0.822±0.000 | 2.608±0.000 | 1.417±0.000 | 0.851±0.000 | 0.923±0.000 |
| AVG | 33.663±0.000 | 0.830±0.000 | 2.274±0.000 | 1.394±0.000 | 0.686±0.000 | 1.037±0.000 |
| WS | 29.073±0.436 | 0.793±0.009 | 2.593±0.052 | 1.364±0.007 | 0.829±0.009 | 0.977±0.008 |
| UWS | 33.928±0.000 | 0.875±0.000 | 2.602±0.000 | 1.362±0.000 | 0.680±0.000 | 0.987±0.000 |
| Dawid–Skene | ? | ? | ? | ? | ? | ? |
| GLAD | ? | ? | ? | ? | ? | ? |
| MACE | ? | ? | ? | ? | ? | ? |
| CARE-SVD | 27.629±0.156 | 0.730±0.002 | 1.957±0.018 | 1.325±0.004 | 0.623±0.006 | 0.694±0.004 |
| CARE-Tensor | ? | ? | ? | ? | ? | ? |
- CAREは12の公開ベンチマークにわたり、スコアリングと分類/好みタスクの両方で集約を一貫して改善する。
- CARE-SVDはスコアリングデータセットで最も低いMAEを達成し、UltraFeedbackに対してMVと比較して誤差を最大26.8%削減。
- スコアリングデータセット全体で、CARE-SVDはAVGに対して相対的に約17.37%の改善、MVに対して約12.75%の改善を平均で達成。
- CARE-Tensorは分類/好みデータセットでしばしば最高の精度を達成(例:PKU-BETTER、SHP、Summarize)。
- CAREはプログラム的判断者、敵対的回答、統制されたバイアスに対して堅牢に機能し、偽陽性とバイアス由来の誤りを減らす。
- CAREで識別される潜在共因子は、回答の長さ、冗長性、フォーマットなどの属性と解釈可能な関連を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。