[論文レビュー] Permutation-Consensus Listwise Judging for Robust Factuality Evaluation
PCFJudgeは候補集合の複数の置換について同じ事実性第一のリスト式プロンプトを再実行し、結果を集約して堅牢なコンセンサススコアを生成することで、順序による不安定性を低減する。
Large language models (LLMs) are now widely used as judges, yet their decisions can change under presentation choices that should be irrelevant. We study one such source of instability: candidate-order sensitivity in listwise factuality evaluation, where several answers can look similarly polished while differing sharply in hallucination risk. We introduce PCFJudge, an inference-time method that reruns the same factuality-first listwise prompt over multiple orderings of the same candidate set and aggregates the resulting scores, ranks, and uncertainty signals into a single consensus decision. On RewardBench 2 Factuality, PCFJudge improves over direct judging by up to 7 absolute points. Development ablations show that the dominant gain comes from permutation consensus itself rather than from heavier arbitration layers. These results suggest that a meaningful share of factuality-judging error arises from order instability, and that averaging over this nuisance variation is a simple and effective way to make LLM evaluation more reliable.
研究の動機と目的
- LLM判定者の候補順序感度による不安定性を動機付け、それに対処する。
- 再訓練や外部検証者を必要とせず、推論時点で実行可能な訓練不要の手法(PCFJudge)を導入し、順序に対してロバストなコンセンサスを達成する。
- 順序コンセンサスを順序ロバストな推定量として正式化し、弱独立性仮定の下での誤差削減特性を分析する。
- 二つのバックボーンでRewardBench 2 Factualityの評価を示し、development ablationsを通じてJudgeBenchへの転移を評価する。
提案手法
- 事実性第一のリスト式プロンプトとその出力(スコア、根拠、二値フラグ)を定義する。
- 候補リストのK通りの置換について同じプロンプトを実行し、出力を元の候補に対応づけてマッピングする。
- 置換ごとに候補ごとの統計量を集計する:平均スコア、ボルダ式の順位寄与、トップ集合指標、校正済み不確実性。
- 最終コンセンサススコアC_iをこれら統計量の加重結合として計算する:C_i = 0.50 s̄_i + 0.25 B_i + 0.20(100 v_i) + 0.05(100 u_i)。
- RewardBench 2の最終実験でK=7を使用してコンセンサスを導出し、勝者を選定する。
実験結果
リサーチクエスチョン
- RQ1リスト式事実性評価における候補順序の変動を、再訓練や追加検証なしで効果的に緩和できるか。
- RQ2複数の置換で平均化することが、現実データセットにおける単一パス評価よりも信頼できる判定を生み出すか。
- RQ3順序コンセンサスは、ペアワイズ転送設定と比較して、事実性重視のリスト式設定の性能にどう影響するか。
- RQ4順序ロバストな judging が最も大きな利点を生む条件は何か、またこのアプローチはバックボーン間でどれだけ転用可能か。
主な発見
- RewardBench 2 Factuality で、PCFJudgeは直接 judging と比較して GPT-5.4を絶対点で+5.17、Claude Sonnetを+7.00ポイント改善した(300例のスライス)。
- 両バックボーン(計600例)を通じて、PCFJudgeは加重平均で+6.08ポイントのゲインを達成。
- 69/29件で改善と回帰が混在するDiscordant改善が生じた(p<10^-4)、堅牢な正の効果を示す。
- JudgeBenchへの転移結果は正の効果を示したが小さく、Claude Sonnet 4.6で+3.24、GPT-5.4で+2.70が100対ペアのスライスで観測。
- development ablations から、ほとんどの利得は順序コンセンサス自体から来ており、重い裁定レイヤーからはそれほど来ていない。
- Qualitative patterns は、裏付けのない特異性や過信的で順序依存的な出力に対する信頼性の向上を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。