Skip to main content
QUICK REVIEW

[論文レビュー] General Agent Evaluation

Elron Bandel, Asaf Yehudai|arXiv (Cornell University)|Feb 26, 2026
Multi-Agent Systems and Negotiation被引用数 2
ひとこと要約

この論文は Exgentic と Unified Protocol を導入して多様なベンチマークで汎用エージェントを評価し、Open General Agent Leaderboard を提示してモデル品質がタスク間の性能を支配することを示す。

ABSTRACT

The promise of general-purpose agents - systems that perform tasks in unfamiliar environments without domain-specific engineering - remains largely unrealized. Existing agents are predominantly specialized, and while emerging implementations like OpenAI SDK Agent and Claude Code hint at broader capabilities, no systematic evaluation of their general performance has been pursued. Current agentic benchmarks assume domain-specific integration, encoding task information in ways that preclude fair evaluation of general agents. This paper frames general-agent evaluation as a first-class research objective. We propose conceptual principles for such evaluation, a Unified Protocol enabling agent-benchmark integration, and Exgentic - a practical framework for general agent evaluation. We benchmark five prominent agent implementations across six environments as the first Open General Agent Leaderboard. Our experiments show that general agents generalize across diverse environments, achieving performance comparable to domain-specific agents without any environment-specific tuning. We release our evaluation protocol, framework, and leaderboard to establish a foundation for systematic research on general-purpose agents.

研究の動機と目的

  • heterogeneous ベンチマーク横断で汎用AIエージェントを評価する理論と実践的フレームワークを提案する。
  • ベンチマークのセマンティクスをエージェント実装から切り離すために統一的な仲介プロトコルを導入する。
  • 拡張可能な評価ハーネス(Exgentic)と Open General Agent Leaderboard を提供し、体系的な比較を推進する。

提案手法

  • Task、Context、Actions フィールドを持つ仲介層として Unified Protocol を定義し、エージェントとベンチマークの特異性をデカップリングする。
  • Exgentic を、エージェントAPIとベンチマークプロトコル間の翻訳を行うアダプタを備えたオーケストレーション基盤として導入する。
  • 5つのエージェント・アーキテクチャを6つの環境でベンチマークし、3つの frontier LLMs を用いて Open General Agent Leaderboard を作成する。
  • モデル品質、エージェントアーキテクチャ、タスク難易度を分離してパフォーマンスのばらつきを分析する。
  • 構成全体でコスト対性能のトレードオフと要素の寄与(メモリ、計画、ツールのショートリスト化)を評価する。
Figure 1 : Cost-performance tradeoffs across agent-model configurations. The Pareto frontier (red dashed line) shows optimal tradeoffs: GPT 5.2 configurations offer the best cost-efficiency while Claude Opus 4.5 achieve the highest performance at 3-33 $\times$ higher cost.
Figure 1 : Cost-performance tradeoffs across agent-model configurations. The Pareto frontier (red dashed line) shows optimal tradeoffs: GPT 5.2 configurations offer the best cost-efficiency while Claude Opus 4.5 achieve the highest performance at 3-33 $\times$ higher cost.

実験結果

リサーチクエスチョン

  • RQ1多様なベンチマークに対して環境特化のチューニングなしに汎用エージェントは一般化できるか。
  • RQ2汎用エージェントの性能を支配する要因はモデル品質とエージェントアーキテクチャのどちらか。
  • RQ3クロスドメイン機能に最も寄与するエージェントの構成要素はどれか。
  • RQ4コスト効率と安定性はモデル-エージェント構成でどのように異なるか。
  • RQ5単一のエージェントがすべてのベンチマークを支配するか、それともモデルとタスクの組み合わせ次第か。

主な発見

General AgentModelAvg SuccessAvg CostApp WorldBrowse Comp+SWE BenchVTau 2 AirlineTau 2 RetailTau 2 Telecom
OpenAI SoloClaude Opus 4.5.73$8.5.68.61.81.74.85.84
Claude CodeClaude Opus 4.5.67$8.0.66.53.74.66.83.76
SmolagentClaude Opus 4.5.66$4.4.70.61.65.72.78.58
ReAct ShortGemini 3.62$0.7.55.48.71.70.82.73
ReAct ShortClaude Opus 4.5.62$3.8.64.49.61.66.78.76
ReActGemini 3.61$0.8.51.48.71.70.82.73
ReActClaude Opus 4.5.61$5.8.61.49.61.66.78.76
OpenAI SoloGemini 3.60$2.8.58.33.72.62.73.89
Claude CodeGemini 3.57$2.5.36.51.67.70.78.69
SmolagentGemini 3.56$1.8.13.57.76.68.76.88
ReAct ShortGPT 5.2.46$0.3.22.46.57.54.73.54
ReActGPT 5.2.41$0.2.00.46.57.54.73.54
OpenAI SoloGPT 5.2.39$0.2.00.48.55.50.54.53
Claude CodeGPT 5.2.38$0.4.00.43.58.48.51.55
SmolagentGPT 5.2.38$0.4.07.26.53.60.68.71
  • モデル品質が構成間のパフォーマンスばらつきの大部分を説明するのに対し、エージェントアーキテクチャは比較的少ない。
  • Claude Opus 4.5 は一般に平均パフォーマンスが最も高く、GPT-5.2 はツール豊富な環境の障害で最も低くなる。
  • コスト効率は構成間で大きく変動し(約33倍程度)、モデルの選択とツールの使用に左右される。
  • 単一のエージェントがすべてのベンチマークを支配するわけではなく、OpenAI Solo と Claude/OpenAI の4ペアが異なるタスクで優れており、モデル依存の影響が強いことを示す。
  • ツールショートリスト化とスキーマガードは、ツール豊富な環境での性能と堅牢性を向上させる。
  • ベンチマーク横断の相関は中〜強く、モデル品質が一般的な傾向を支配する一方、エージェントのランキングはモデルによって異なる。
Figure 2 : Evolution of Agentic Evaluation. (A) Collection of separate benchmarks, each requiring a custom agent or an agent with specific adaptation per benchmark (HAL) (B) Multiple benchmarks consolidated through a single protocol, such as CLI, or Web (C) Multiple benchmarks consolidated through a
Figure 2 : Evolution of Agentic Evaluation. (A) Collection of separate benchmarks, each requiring a custom agent or an agent with specific adaptation per benchmark (HAL) (B) Multiple benchmarks consolidated through a single protocol, such as CLI, or Web (C) Multiple benchmarks consolidated through a

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。