[論文レビュー] Mediocrity is the key for LLM as a Judge Anchor Selection
この論文はLLMを判定者としての評価におけるアンカー選択が信頼性に与える影響を分析し、強/弱の極端値よりも中庸なアンカーが信頼性の高いランキングに適していることを示す。パワー分析と情報量の分析を行い、アンカーベースの評価を改善する実践的ガイドラインを提示する。
The ``LLM-as-a-judge'' paradigm has become a standard method for evaluating open-ended generation. To address the quadratic scalability costs of pairwise comparisons, popular benchmarks like Arena-Hard and AlpacaEval compare all models against a single anchor. However, despite its widespread use, the impact of anchor selection on the reliability of the results remains largely unexplored. In this work, we systematically investigate the effect of anchor selection by evaluating 22 different anchors on the Arena-Hard-v2.0 dataset. We find that the choice of anchor is critical: a poor anchor can dramatically reduce correlation with human rankings. We identify that common anchor choices (best-performing and worst-performing models) make poor anchors. Because these extreme anchors are consistently better or worse than all other models, they are seldom indicative of the relative ranking of the models. We further quantify the effect size of anchor selection, showing it is comparable to the selection of a judge model. We conclude with actionable recommendations. First, we conduct a power analysis, and compute sufficient benchmark sizes for anchor-based evaluation, finding that standard benchmark sizes are insufficient for pairwise evaluation and fail to distinguish between competitive models reliably. Second, we provide guidelines for selecting informative anchors to ensure reliable and efficient evaluation practices.
研究の動機と目的
- Arena-Hard-v2.0とAlpacaEvalに対するLLM判定者評価の信頼性に対するアンカー選択の影響を評価する。
- 異なるアンカーが二次(ゴールド)ランキングおよび人間ランキングとの相関に及ぼす影響を定量化する。
- サンプルの情報量と検出力を分析し、十分なベンチマークサイズを決定する。
- アンカー選択と報告情報量の改善に関する実践的推奨を提供する。
提案手法
- ベンチマークあたり750サンプルで22モデルと5判定者を用いたアンカー基づく評価を再現する。
- Win-RateおよびBradley-Terry集計法を用いてアンカー基づくランキングを計算し、 Kendall’s tauを用いて二次(ゴールド)および人間ランキングと比較する。
- 逆U字型のアンカー品質パターンを説明するために、勝率分布とサンプルの情報量を分析する。
- 情報量と効果量を前提とした必要サンプルサイズを推定するパワー分析を行う。
- アンカー選択の影響を判定者選択の影響と比較し、データセットサイズと複数アンカーに対するロバスト性を評価する。

実験結果
リサーチクエスチョン
- RQ1アンカー選択はアンカー基づくランキングと二次/人間ランキングとの相関にどのように影響するか?
- RQ2情報量とランキング信頼性を最大化する最適な(中庸な)アンパーの性能レベルはあるか?
- RQ3アンカー基づく評価におけるサンプルの情報量はどれほどで、必要サンプルサイズにどう影響するか?
- RQ4アンカー選択は判定者選択と比較して評価信頼性にどの程度影響するか?
- RQ5アンカー基づく評価と報告を最適化する実践的ガイドラインは何か?
主な発見
- アンカー品質はアンカー間で大きく変動し、最高と最低のアンカー間で人間/二次ランキングとの相関が最大0.30/0.19程度低下する。
- 逆U字型の関係が存在し、トップおよびボトムに位置するアンカーは相関が低く、中庸なアンカーが最も良い相関を示す。
- 強いアンカーを含むサンプルの大半は情報量が低く、評価予算を浪費する(例:o3は約500/750サンプルで他を全て凌駕する)。
- アンカー情報量は二次ランキングとの整合性と正の相関を持つ(R^2 = 0.5940)。
- パワー分析は標準的なアンカー基盤ベンチマークが競合モデルを信頼性高く識別するには統計的に不十分となる可能性を示す;中庸を用い情報量を報告することで信頼性が向上する。
- アンカー選択効果は評価結果に対する判定者選択の効果と同程度、またはそれ以上となることがある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。