[論文レビュー] AdaRubric: Task-Adaptive Rubrics for LLM Agent Evaluation
AdaRubricはタスク記述からタスク特有のルーブリックを動的に生成し、各次元の信頼度を用いてLLMエージェント軌跡を評価することで、人間判断との相関と下流タスク性能をルーブリック設計なしで向上させる。
LLM-as-Judge evaluation fails agent tasks because a fixed rubric cannot capture what matters for this task: code debugging demands Correctness and Error Handling; web navigation demands Goal Alignment and Action Efficiency. We present ADARUBRIC, which closes this gap by generating task-specific evaluation rubrics on the fly from task descriptions, scoring trajectories step-by-step with confidence-weighted per-dimension feedback, and filtering preference pairs with the novel DimensionAwareFilter - a provably necessary condition for preventing high-scoring dimensions from masking dimension-level failures. On WebArena and ToolBench, ADARUBRIC achieves Pearson r=0.79 human correlation (+0.16 over the best static baseline) with deployment-grade reliability (Krippendorff's $α$=0.83). DPO agents trained on ADARUBRIC preference pairs gain +6.8 to +8.5 pp task success over Prometheus across three benchmarks; gains transfer to SWE-bench code repair (+4.9 pp) and accelerate PPO convergence by +6.6 pp at 5K steps - both without any rubric engineering. Code: https://github.com/alphadl/AdaRubrics.
研究の動機と目的
- 固定ルーブリックを超える目標指向のLLMエージェント用タスク特有の評価基準の必要性を動機づける。
- タスク記述から動的で直交する評価次元を生成するフレームワークを提案する。
- RL/DPO訓練のためのステップごとの信頼度重み付き評価と次元ごとのクレジット割当を実現する。
- DimensionAwareFilterを導入し、次元のマスキングを防ぎ評価の信頼性を向上させる。
- AdaRubricの頑健性と複数のベンチマークおよび下流タスクへの移行性を示す。
提案手法
- ステージ1: 適応ルーブリック生成。LLMがN次元・重み・5段階基準を含むタスク適応ルーブリックを出力。
- ステージ2: 信頼度重み付き軌跡評価。各ステップと各次元にスコアと信頼度を付与し、加重平均・幾何平均・最小などの手法で集計。
- ステージ3: DimensionAwareFilterを含むフィルタリングパイプライン。軌跡を剪定し高品質なDPO好みペアを生成。
- 報酬信号の合成。フィルタ済み軌跡からマージンベースのDPOペアを作成して訓練に使用。
- Krippendorffのαを用いた信頼性の定量化。複数回の評価で評価者の一貫性を評価。
- GPT-4o以外のオープンウェイトモデルとの互換性を示す多バックボーン一般化テスト。
実験結果
リサーチクエスチョン
- RQ1タスク適応ルーブリックは、異なるタスクファミリに対するLLMベースのエージェント評価の整合性と信頼性を向上させるか。
- RQ2各次元の信頼度スコアと次元認識フィルタリングは、各ステップのクレジット割当と下流学習信号を改善するか。
- RQ3AdaRubricの性能は、静的ルーブリックや他のLLMを Judge とするアプローチと比較して人間との相関・信頼性でどう位置づけられるか。
- RQ4コード修正やマルチモーダルタスクを含むドメイン間・モダリティ間で適応ルーブリック生成は転移するか。
- RQ5AdaRubric主導の報酬が下流のRL/DPO訓練の収束とタスク成功に与える影響は。
主な発見
| Method | WebArena r | ToolBench r | AgentBench r | Avg r | Delta |
|---|---|---|---|---|---|
| GPT-4 Direct | 0.64 | 0.60 | 0.62 | 0.620 | — |
| AdaRubric -WM | 0.74 | 0.70 | 0.72 | 0.720 | +0.100 |
| AdaRubric -GM | 0.76 | 0.71 | 0.74 | 0.737 | +0.117 |
| AdaRubric -DA | 0.79 | 0.74 | 0.77 | 0.767 | +0.147 |
- AdaRubricはWebArena、ToolBench、AgentBenchでPearson rが最大0.79–0.774に達し、静的ルーブリックを最大0.15ポイント上回る平均相関を達成。
- AdaRubricはKrippendorffのαが約0.83で展開信頼性を示し、提案された展開基準を満たす。
- AdaRubricの好みペアで訓練されたDPOエージェントはPrometheus比でタスク成功が最大+8.5ポイント、SWE-benchコード修正へ転移する。
- 静的指標(ROUGE-L、BERTScore)はエージェント軌跡の人間判断と乖離が大きい一方、AdaRubric由来の信号は学習成果を大幅に改善。
- AdaRubricは未知のタスクタイプ(SWE-benchコード修正: r=0.77、+4.9pp DPO)へ一般化し、PPOの収束を加速(5Kステップで+6.6pp)。
- ドメイン横断転移実験は、適応ルーブリックがドメイン内訓練を超えて新しいタスクファミリの性能を改善。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。