Skip to main content
QUICK REVIEW

[論文レビュー] Benchmark Test-Time Scaling of General LLM Agents

Xiaochuan Li, Ryan Ming|arXiv (Cornell University)|Feb 22, 2026
Web Data Mining and Analysis被引用数 2
ひとこと要約

General AgentBench は統一環境で10のLLMエージェントを多領域タスクで評価し、逐次および並列のテスト時スケーリングを分析して堅牢性のギャップと限界を明らかにする。

ABSTRACT

LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.

研究の動機と目的

  • ドメイン別設定を超えた汎用的なLLMエージェントの評価を促進する。
  • 多様なドメインとツールを1つのインターフェースに統合したUnified AgentBenchを作成する。
  • 現実的な多領域タスクにおける逐次および並列のテスト時スケーリングが性能に与える影響を研究する。
  • 専門的な設定から一般エージェント設定へ移行する際のモデルファミリー間の堅牢性ギャップを定量化する。

提案手法

  • コード、検索、ツール利用、推論の領域を統合したUnified MCPベースのツールインターフェースを備えたGeneral AgentBenchを導入する。
  • 共有ホストを介して全タスクとツールを公開し、共通の評価環境を作成する。
  • 統一ポリシーと固定デコード設定(温度0.7、コンテキスト>タスク最大値)を用いて10の主要LLMを評価する。
  • 対話履歴を拡張することで逐次スケーリングを分析し、複数の trajectory をサンプリングすることで並列スケーリングを分析する(pass@Kと自己選択)。
  • 生成と自己選択の検証ギャップを含む外部検 verifier 比較(GPT-5)を含む、クロスドメインツール利用と検証のギャップを評価する。
(a) Performace comparsion.
(a) Performace comparsion.

実験結果

リサーチクエスチョン

  • RQ1ドメイン特化から一般エージェント評価へ移行することで、さまざまなドメインで性能が低下するのか?
  • RQ2一般エージェントにおける逐次テスト時スケーリングの限界(文脈長と性能の関係)は?
  • RQ3検証ギャップのある自己選択に対して、並列スケーリングの実用的な価値はどれくらいか?
  • RQ4統一環境で動作する際、エージェントはドメイン横断ツールをどのように活用するのか?
  • RQ5General AgentBenchの下で各モデルファミリー(例:Claude、GPT-5、Open-Sourceモデル)はどれだけ堅牢か?

主な発見

  • 多くのモデルで一般エージェント設定へ切り替えると性能が大幅に低下する(平均およそ10–30%低下)。
  • 逐次スケーリングは文脈の上限を示し、それを超える長い履歴はほぼ利益を生まないか、性能を低下させる。
  • 並列スケーリングは上限を引き上げる(pass@K の増加)一方で、自己選択の検証ギャップにより実用的な利得は限られ、外部検 verifier が内部判断を下回ることがある。
  • クロスドメインツール利用は、元のドメインを超えたツールを活用することで一部モデルの性能を向上させる。
  • Claude Sonnet 4.5 は比較的堅牢だが、いくつかのオープンモデルは一般エージェント設定でより大きな低下を示す。
(b) Sequential test-time scaling.
(b) Sequential test-time scaling.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。