QUICK REVIEW

[논문 리뷰] Who can we trust? LLM-as-a-jury for Comparative Assessment

Mengjie Qian, Guangzhi Sun|arXiv (Cornell University)|2026. 02. 18.

Topic Modeling인용 수 0

한 줄 요약

BT-σ를 소개합니다. 이는 판단자 인지(judge-aware) 확장을 갖춘 Bradley–Terry 모델로, 쌍대 LLM 비교에서 아이템 순위와 판단자 신뢰도를 함께 추정하여 단순 평균화 및 보정보다 집계 성능을 향상시킵니다.

ABSTRACT

Large language models (LLMs) are increasingly applied as automatic evaluators for natural language generation assessment often using pairwise comparative judgements. Existing approaches typically rely on single judges or aggregate multiple judges assuming equal reliability. In practice, LLM judges vary substantially in performance across tasks and aspects, and their judgment probabilities may be biased and inconsistent. Furthermore, human-labelled supervision for judge calibration may be unavailable. We first empirically demonstrate that inconsistencies in LLM comparison probabilities exist and show that it limits the effectiveness of direct probability-based ranking. To address this, we study the LLM-as-a-jury setting and propose BT-sigma, a judge-aware extension of the Bradley-Terry model that introduces a discriminator parameter for each judge to jointly infer item rankings and judge reliability from pairwise comparisons alone. Experiments on benchmark NLG evaluation datasets show that BT-sigma consistently outperforms averaging-based aggregation methods, and that the learned discriminator strongly correlates with independent measures of the cycle consistency of LLM judgments. Further analysis reveals that BT-sigma can be interpreted as an unsupervised calibration mechanism that improves aggregation by modelling judge reliability.

연구 동기 및 목표

단일 LLM의 신뢰성 부족 및 비교 NLG 평가에서 균일 가중 판단자 집계의 편향성 문제를 동기로 제시합니다.
판단자 인지 랭킹 모델을 제안하여 쌍대 비교만으로 아이템 순위와 판단자 신뢰도를 학습합니다.
벤치마크 NLG 데이터셋에서 Averaging 기반 방법과 감독 보정 방식보다 BT-σ가 더 나은 성능을 보임을 입증합니다.
학습된 판단자 구분자가 판단자 신뢰도와 일관성의 비지도 지표로서 작용하는지 분석합니다.

제안 방법

소프트 Bradley–Terry 프레임워크로 쌍대 비교를 모델링하여 전역 아이템 순위를 얻습니다.
P_k(i≻j)=σ((s_i−s_j)/σ_k) 형태의 판단자별 판별자 σ_k를 도입하여 레이블 없이 s_i와 σ_k를 공동 학습합니다.
교정되지 않은 편향을 제거하기 위해 p'_{ij} = 0.5(p_{ij}+(1−p_{ji}))를 만족시키는 상호성 정칙화(debiasing) 단계를 적용합니다.
필요시 평가 측면에 따라 신뢰도를 다르게 반영하도록 σ_k,asp 같은 측면 의존 판별자를 확장합니다.
SummEval과 Topical-Chat에서 인간 판단과의 스피어만 상관계수를 사용해 Avg-Prob, hard BT, soft BT, Temp-BT와 비교합니다.
BT-σ가 신뢰할 만한 판단자를 상향 가중하고 시끄러운 신호를 하향 조정하여 강건성을 향상시킨다는 점을 보여줍니다.

실험 결과

연구 질문

RQ1LLM 쌍대 확률의 불일치가 판단 합산 시 순위 품질에 어떤 영향을 미치는가?
RQ2인간 레이블 없이도 판단자 인지 BT 모델이 아이템 순위와 판단자 신뢰도를 동시에 추정할 수 있는가?
RQ3BT-σ가 기준선인 평균화 및 보정 방식보다 무감독 NLG 평가 벤치마크에서 일관되게 우수한가?
RQ4학습된 판단자 구분자들이 독립적 신뢰도 지표 및 사이클 일관성과 어느 정도 상관되는가?

주요 결과

BT 기반 집계는 대부분의 모델 및 측면에서 직접 평균화 대비 랭킹 안정성을 향상시킵니다.
SummEval 및 Topical-Chat에서 BT-σ가 소프트 BT와 하드 BT를 일관되게 능가합니다.
학습된 판단자 구분자 1/σ_k는 판단자 성능 및 사이클 불일치 감소와 양의 상관 관계를 보이며 효과적인 비지도 신뢰 신호를 나타냅니다.
BT-σ는 확률 신호가 노이즈와 불일치일 때도 신뢰할 만한 판단자를 하향 가중하여 강건한 성능을 제공합니다.
BT-σ-asp는 측면별에서의 소폭 이득을 보이며 실무적으로 단일 판단자 구분자면 충분하다는 시사점을 제공합니다.
Hard BT-σ는 매우 불일치한 설정(예: Topical-Chat의 ENG)에서 Soft 변형보다 우수할 수 있으며, Moderately inconsistent 상황(SummEval)에서 Soft BT-σ가 뛰어난 편입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.