QUICK REVIEW

[논문 리뷰] Permutation-Consensus Listwise Judging for Robust Factuality Evaluation

Tianyi Huang, Nathan Huang|arXiv (Cornell University)|2026. 03. 20.

Topic Modeling인용 수 0

한 줄 요약

PCFJudge는 후보 집합의 여러 순열에 대해 동일한 사실성-우선 리스트형 프롬프트를 재실행하고 결과를 집계하여 강건한 컨센서스 점수를 산출하며, 순서에 의한 불안정성을 감소시킵니다.

ABSTRACT

Large language models (LLMs) are now widely used as judges, yet their decisions can change under presentation choices that should be irrelevant. We study one such source of instability: candidate-order sensitivity in listwise factuality evaluation, where several answers can look similarly polished while differing sharply in hallucination risk. We introduce PCFJudge, an inference-time method that reruns the same factuality-first listwise prompt over multiple orderings of the same candidate set and aggregates the resulting scores, ranks, and uncertainty signals into a single consensus decision. On RewardBench 2 Factuality, PCFJudge improves over direct judging by up to 7 absolute points. Development ablations show that the dominant gain comes from permutation consensus itself rather than from heavier arbitration layers. These results suggest that a meaningful share of factuality-judging error arises from order instability, and that averaging over this nuisance variation is a simple and effective way to make LLM evaluation more reliable.

연구 동기 및 목표

LLM 판단자의 후보-순서 민감성으로 인한 리스트형 사실성 평가의 불안정을 동기 부여하고 해결합니다.
재훈련이나 외부 검증자 없이도 순서를 견고하게 만드는 추론 시점의 학습 없는 방법(PCFJudge)을 도입합니다.
순열-합의를 순서-견고한 추정기로 형식화하고 약한 독립성 가정 하에서 오차 감소 특성을 분석합니다.
두 개의 백본에서 RewardBench 2 Factuality에서의 이득을 입증하고 개발적 절차를 통한 JudgeBench로의 전이를 평가합니다.]
method⟮⟯ ["사실성-우선 리스트형 프롬프트와 그것의 출력(점수, 논거, 이진 플래그)들을 정의합니다.","후보 목록의 K개 순열에 대해 동일한 프롬프트를 실행하고 출력물을 원래 후보에게 매핑합니다.","순열들 간의 후보별 통계를 집계합니다: 평균 점수, 보드라(Borda) 스타일 순위 기여도, 최상위 집합 지시자, 보정된 불확실성.","최종 컨센서스 점수 C_i를 이 통계들의 가중 결합으로 계산합니다: C_i = 0.50 s̄_i + 0.25 B_i + 0.20(100 v_i) + 0.05(100 u_i).","최종 RewardBench 2 실험에서 컨센서스를 도출하고 승자를 선택하기 위해 K=7을 사용합니다."]
research_questions⟮⟯ ["재훈련이나 추가 검증 단계 없이도 리스트형 사실성 평가에서 후보-순서 variation을 효과적으로 완화할 수 있는가?", "여러 순열에 걸친 평균이 단일 패스 평가보다 실제 데이터셋에서 더 신뢰할 수 있는 판단자를 생성하는가?", "순열-합의가 쌍대 전이 설정과 비교했을 때 사실성 중심의 리스트형 환경에서 성능에 어떤 영향을 미치는가?", "어떤 조건에서 순서-견고한 판단이 가장 큰 이점을 제공하며 이 접근 방식이 백본 간 전이 가능성은 어느 정도인가?"], "key_findings⟮⟯ ["RewardBench 2 Factuality에서 PCFJudge는 GPT-5.4에서 절대점수 5.17 포인트를 개선했고 Claude Sonnet 4.6에서 7.00 포인트를 개선했습니다(300-example 슬라이스에서 직접 판단 대비).", "두 백본(총 600개의 예제)에서 PCFJudge는 가중 평균 이득 +6.08 포인트를 달성했습니다.", "일치하지 않는 개선이 오히려 회귀로 나타난 경우가 69/29 건에서 발생했으며(p<10^-4), 이는 강건한 긍정적 효과를 나타냅니다.", "JudgeBench 전이 결과는 긍정적이지만 더 작았으며: Claude Sonnet 4.6에서 +3.24, GPT-5.4에서 +2.70의 100-대 쌍 슬라이스에서 나타났습니다.", "개발적 절차 절차에서 대부분의 이득은 순열 합의 자체에서 비롯되며 더 무거운 중재 층보다는 순열 합의에서 비롯됩니다.", "정성적 패턴은 불충분한 구체성 및 과신하고 순서에 민감한 출력에 대해 더 높은 신뢰성을 보여줍니다."], "table_headers":[], "table_rows":[]}{

제안 방법

사실성-우선 리스트형 프롬프트와 그것의 출력들(점수, 논거, 이진 플래그)을 정의합니다.
후보 목록의 K개 순열에 대해 동일한 프롬프트를 실행하고 출력물을 원래 후보에게 매핑합니다.
순열들 간의 후보별 통계를 집계합니다: 평균 점수, 보드라(Borda) 스타일 순위 기여도, 최상위 집합 지시자, 그리고 보정된 불확실성.
최종 컨센시스 점수 C_i를 이들 통계의 가중 조합으로 계산합니다: C_i = 0.50 s̄_i + 0.25 B_i + 0.20(100 v_i) + 0.05(100 u_i).
최종 RewardBench 2 실험에서 컨센서스를 도출하고 승자를 선택하기 위해 K=7을 사용합니다.

실험 결과

연구 질문

RQ1후보-순서 변동이 있는 리스트형 사실성 평가를 재훈련이나 추가 검증 없이 효과적으로 완화할 수 있는가?
RQ2여러 순열에 걸친 평균이 단일 패스 평가보다 실제 데이터셋에서 더 신뢰할 수 있는 판단을 제공하는가?
RQ3순열-합의가 사실성 중심의 리스트형 설정에서 페어와이즈 전이 구성 대비 성능에 어떤 영향을 미치는가?
RQ4어떤 조건에서 순서-견고한 판단이 가장 큰 이익을 제공하고 이 접근 방식의 백본 간 전이 가능성은 어느 정도인가?]
RQ5key_findings:[

주요 결과

On RewardBench 2 Factuality, PCFJudge improved GPT-5.4 by +5.17 absolute points and Claude Sonnet 4.6 by +7.00 points over direct judging on 300-example slices.
Across both backbones (600 total examples), PCFJudge achieved a weighted average gain of +6.08 points.
Discordant improvement vs regression occurred in 69/29 cases (p<10^-4), indicating a robust positive effect.
JudgeBench transfer results showed positive but smaller gains: +3.24 (Claude Sonnet 4.6) and +2.70 (GPT-5.4) on 100-pair slices.
Development ablations indicate most gains come from permutation consensus itself rather than heavier arbitration layers.
Qualitative patterns show improved reliability against unsupported specificity and over-confident, order-sensitive outputs.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.