[论文解读] CARE: Confounder-Aware Aggregation for Reliable LLM Evaluation
CARE 提出具对混淆因素感知的聚合(CARE-SVD 与 CARE-Tensor),通过建模潜在质量和共享混淆因素来改进多 LLM 判断者评估,理论保障及经验提升高达 26.8% 的错误降低。
LLM-as-a-judge ensembles are the standard paradigm for scalable evaluation, but their aggregation mechanisms suffer from a fundamental flaw: they implicitly assume that judges provide independent estimates of true quality. However, in practice, LLM judges exhibit correlated errors caused by shared latent confounders -- such as verbosity, stylistic preferences, or training artifacts -- causing standard aggregation rules like majority vote or averaging to provide little gain or even amplify systematic mistakes. To address this, we introduce CARE, a confounder-aware aggregation framework that explicitly models LLM judge scores as arising from both a latent true-quality signal and shared confounding factors. Rather than heuristically re-weighting judges, CARE separates quality from confounders without access to ground-truth labels. We provide theoretical guarantees for identifiability and finite-sample recovery under shared confounders, and we quantify the systematic bias incurred when aggregation models omit confounding latent factors. Across 12 public benchmarks spanning continuous scoring, binary classification, and pairwise preference settings, CARE improves aggregation accuracy, reducing error by up to 26.8\%. Code is released in \href{https://github.com/SprocketLab/CARE}{https://github.com/SprocketLab/CARE}.
研究动机与目标
- 由于存在共享混淆因素导致相关错误,需要对多个 LLM 判断者进行原则性聚合的动机。
- 提出 CARE,在没有地真标签的情况下,将潜在真实质量与共享混淆因素分离。
- 为不同数据情景开发两个实例化(CARE-SVD 和 CARE-Tensor)。
- 在共享混淆下提供可辨识性与有限样本保证的理论结果。
- 在多样基准上展示相对于基线的经验改进。
提出的方法
- 将判断者分数建模为来自潜在真实质量和共享混淆因素的稀疏图模型中的产物。
- 将评估分数的精度分解为稀疏分量和低秩分量,以识别潜在结构(SVD 路径)或将判断者分组以用于张量分解(Tensor 路径)。
- CARE-SVD:在联合高斯假设下利用稀疏+低秩分解来恢复质量载荷并估计 Q 为 E[Q|J]。
- CARE-Tensor:通过稀疏结构对判断者分组,基于组构造三阶矩张量并应用 CP/张量分解来恢复均值 μ_qc 和混合权重 π_qc。
- 通过对称性打破来识别真实质量因子;按识别出的质量因子载荷对聚合进行加权。
- 给出两种实现的可辨识性和有限样本恢复的理论结果;讨论对模型不正确设定的鲁棒性。

实验结果
研究问题
- RQ1是否可以显式建模跨 LLM 判断者的共享混淆因素,以在没有地真标签的情况下提高聚合准确性?
- RQ2在什么条件下,潜在质量和混淆因素在 CARE 下是可辨识且可恢复的?
- RQ3与传统基线相比,CARE-SVD 和 CARE-Tensor 在连续分数、二元分类和偏好设定下的表现如何?
- RQ4有哪些理论保证(可辨识性、样本复杂度)支持 CARE 对潜在因子的恢复?
- RQ5CARE 方法是否揭示可解释的潜在混淆因素并提升对抗性或偏见判断的鲁棒性?
主要发现
| Method | ASSET | FeedbackQA | Review-5K | Summarize | UltraFeedback | Yelp |
|---|---|---|---|---|---|---|
| MV | 31.153±0.000 | 0.822±0.000 | 2.608±0.000 | 1.417±0.000 | 0.851±0.000 | 0.923±0.000 |
| AVG | 33.663±0.000 | 0.830±0.000 | 2.274±0.000 | 1.394±0.000 | 0.686±0.000 | 1.037±0.000 |
| WS | 29.073±0.436 | 0.793±0.009 | 2.593±0.052 | 1.364±0.007 | 0.829±0.009 | 0.977±0.008 |
| UWS | 33.928±0.000 | 0.875±0.000 | 2.602±0.000 | 1.362±0.000 | 0.680±0.000 | 0.987±0.000 |
| Dawid–Skene | ? | ? | ? | ? | ? | ? |
| GLAD | ? | ? | ? | ? | ? | ? |
| MACE | ? | ? | ? | ? | ? | ? |
| CARE-SVD | 27.629±0.156 | 0.730±0.002 | 1.957±0.018 | 1.325±0.004 | 0.623±0.006 | 0.694±0.004 |
| CARE-Tensor | ? | ? | ? | ? | ? | ? |
- CARE 在 12 个公开基准的评分和分类/偏好任务中持续改善聚合效果。
- CARE-SVD 在评分数据集上获得最低的 MAE,并相较 MV 在 UltraFeedback 中将误差降低高达 26.8%。
- 在评分数据集中,CARE-SVD 相对于 AVG 的相对提升约 17.37%,相对于 MV 的提升约 12.75%(平均值)。
- CARE-Tensor 在分类/偏好数据集(如 PKU-BETTER、SHP、Summarize)上常常达到最高准确率。
- CARE 能稳健处理程序化评审、对抗性回答与受控偏见,降低误报和偏见引起的错误。
- CARE 识别的潜在混淆因素与响应属性(如长度、冗长、格式)具有可解释的关联性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。