Skip to main content
QUICK REVIEW

[논문 리뷰] CARE: Confounder-Aware Aggregation for Reliable LLM Evaluation

Jitian Zhao, Changho Shin|arXiv (Cornell University)|2026. 02. 09.
Explainable Artificial Intelligence (XAI)인용 수 0
한 줄 요약

CARE은 confounder-aware aggregation (CARE-SVD 및 CARE-Tensor)을 통해 잠재 질 인식 품질과 공유된 혼동 요인을 모델링하여 다중 LLM 평가를 개선하고, 이론적 보장과 실증적 이득은 최대 26.8%의 오차 감소로 나타난다.

ABSTRACT

LLM-as-a-judge ensembles are the standard paradigm for scalable evaluation, but their aggregation mechanisms suffer from a fundamental flaw: they implicitly assume that judges provide independent estimates of true quality. However, in practice, LLM judges exhibit correlated errors caused by shared latent confounders -- such as verbosity, stylistic preferences, or training artifacts -- causing standard aggregation rules like majority vote or averaging to provide little gain or even amplify systematic mistakes. To address this, we introduce CARE, a confounder-aware aggregation framework that explicitly models LLM judge scores as arising from both a latent true-quality signal and shared confounding factors. Rather than heuristically re-weighting judges, CARE separates quality from confounders without access to ground-truth labels. We provide theoretical guarantees for identifiability and finite-sample recovery under shared confounders, and we quantify the systematic bias incurred when aggregation models omit confounding latent factors. Across 12 public benchmarks spanning continuous scoring, binary classification, and pairwise preference settings, CARE improves aggregation accuracy, reducing error by up to 26.8\%. Code is released in \href{https://github.com/SprocketLab/CARE}{https://github.com/SprocketLab/CARE}.

연구 동기 및 목표

  • 다중 LLM 판단자의 공유된 혼동 요인으로 인한 상관된 오류를 초래하는 principled aggregation의 필요성을 제시한다.
  • ground-truth 라벨 없이 잠재적 실제 품질과 공유 혼동 요인을 분리하기 위해 CARE를 제안한다.
  • 다른 데이터 체계에 대해 두 가지 구현(CARE-SVD 및 CARE-Tensor)을 개발한다.
  • 공유 혼동 하에서의 식별 가능성 및 유한 샘플 보장을 이론적으로 제공한다.
  • 다양한 벤치마크에서 baselines 대비 실증적 개선을 보여준다.

제안 방법

  • Judge 점수를 희소 그래픽 모델 내의 잠재 실제 품질 및 공유 혼동 요인으로부터 발생하는 것으로 모델링한다.
  • judge-score의 정밀도를 희소-저계수 성분과 낮은 순위 성분으로 분해하여 잠재 구조를 식별한다(SVD 경로) 또는 판단자를 뷰로 분할하여 텐서 분해를 수행한다(Tensor 경로).
  • CARE-SVD: joint-Gaussian 가정하에서 sparse-plus-low-rank 분해를 이용하여 품질 부하를 회복하고 Q를 E[Q|J]로 추정한다.
  • CARE-Tensor: sparse 구조로 판단자를 분할하고 그룹으로부터 3차 모멘트 텐서를 구성한 뒤 CP/텐서 분해를 적용하여 평균 μ_qc 및 혼합 가중치 π_qc를 회복한다.
  • 진정한 품질 요인을 식별하기 위한 대칭성 깨뜨리기(symmetry-breaking)를 수행하고, 식별된 품질 요인 부하로 가중치를 집계한다.
  • 두 구현 모두에 대해 식별 가능성 및 유한 샘풀 회복에 대한 이론적 결과를 제공하고, 잘못된 모델 가정에 대한 강건성에 대해 논의한다.
Figure 2 : Interpreting CARE-SVD latent confounders on Review-5K. Heatmap reports Spearman correlations between inferred confounder scores and response features.
Figure 2 : Interpreting CARE-SVD latent confounders on Review-5K. Heatmap reports Spearman correlations between inferred confounder scores and response features.

실험 결과

연구 질문

  • RQ1공유된 혼동 요인이 LLM 판단 간의 모호한 오차를 개선된 집계로 이끄는지, ground-truth 라벨 없이도 모델링할 수 있는가?
  • RQ2CARE를 통해 잠재 품질 및 혼동 요인이 식별 가능하고 회복 가능한 조건은 무엇인가?
  • RQ3CARE-SVD 및 CARE-Tensor가 연속 점수, 이진 분류, 선호 설정에서 전통적 baseline과 비교해 어떻게 성능하는가?
  • RQ4잠재 요인 회복에 대한 식별 가능성·샘플 복잡도에 대한 이론적 보장이 있는가?
  • RQ5CARE 방법이 해석 가능한 잠재 혼동 요인을 밝히고 악의적이거나 편향된 판단에 대한 강건성을 개선하는가?

주요 결과

방법ASSETFeedbackQAReview-5KSummarizeUltraFeedbackYelp
MV31.153±0.0000.822±0.0002.608±0.0001.417±0.0000.851±0.0000.923±0.000
AVG33.663±0.0000.830±0.0002.274±0.0001.394±0.0000.686±0.0001.037±0.000
WS29.073±0.4360.793±0.0092.593±0.0521.364±0.0070.829±0.0090.977±0.008
UWS33.928±0.0000.875±0.0002.602±0.0001.362±0.0000.680±0.0000.987±0.000
Dawid–Skene??????
GLAD??????
MACE??????
CARE-SVD27.629±0.1560.730±0.0021.957±0.0181.325±0.0040.623±0.0060.694±0.004
CARE-Tensor??????
  • CARE은 평가 및 분류/선호 작업에서 12개 공개 벤치마크 전체에서 지속적으로 집계를 개선한다.
  • CARE-SVD는 점수화 데이터셋에서 최저 MAE를 달성하고 UltraFeedback 대비 최대 26.8%의 오차 감소를 달성한다.
  • 점수화 데이터셋 전반에서 CARE-SVD는 AVG 대비 약 17.37%의 상대적 개선 및 MV 대비 12.75%의 개선을 보인다.
  • CARE-Tensor는 분류/선호 데이터셋에서 종종 최상위 정확도를 달성한다(예: PKU-BETTER, SHP, Summarize).
  • CARE은 프로그램 판단자, 적대적 응답 및 제어된 편향에 대해 강건하게 작동하여 거짓 양성 및 편향으로 인한 오류를 줄인다.
  • CARE가 식별하는 잠재 혼동 요인은 길이, 장문 및 형식과 같은 응답 속성과 해석 가능한 연관성을 보인다.
Figure 3 : Interpreting CARE-Tensor latent confounders on PKU-Safer. Bars show Spearman correlations between inferred confounder posteriors and response features.
Figure 3 : Interpreting CARE-Tensor latent confounders on PKU-Safer. Bars show Spearman correlations between inferred confounder posteriors and response features.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.