QUICK REVIEW

[論文レビュー] Benchmark Test-Time Scaling of General LLM Agents

Xiaochuan Li, Ryan Ming|arXiv (Cornell University)|Feb 22, 2026

Web Data Mining and Analysis被引用数 2

ひとこと要約

General AgentBench は統一環境で10のLLMエージェントを多領域タスクで評価し、逐次および並列のテスト時スケーリングを分析して堅牢性のギャップと限界を明らかにする。

ABSTRACT

LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.

研究の動機と目的

ドメイン別設定を超えた汎用的なLLMエージェントの評価を促進する。
多様なドメインとツールを1つのインターフェースに統合したUnified AgentBenchを作成する。
現実的な多領域タスクにおける逐次および並列のテスト時スケーリングが性能に与える影響を研究する。
専門的な設定から一般エージェント設定へ移行する際のモデルファミリー間の堅牢性ギャップを定量化する。

提案手法

コード、検索、ツール利用、推論の領域を統合したUnified MCPベースのツールインターフェースを備えたGeneral AgentBenchを導入する。
共有ホストを介して全タスクとツールを公開し、共通の評価環境を作成する。
統一ポリシーと固定デコード設定（温度0.7、コンテキスト>タスク最大値）を用いて10の主要LLMを評価する。
対話履歴を拡張することで逐次スケーリングを分析し、複数の trajectory をサンプリングすることで並列スケーリングを分析する（pass@Kと自己選択）。
生成と自己選択の検証ギャップを含む外部検 verifier 比較（GPT-5）を含む、クロスドメインツール利用と検証のギャップを評価する。

実験結果

リサーチクエスチョン

RQ1ドメイン特化から一般エージェント評価へ移行することで、さまざまなドメインで性能が低下するのか？
RQ2一般エージェントにおける逐次テスト時スケーリングの限界（文脈長と性能の関係）は？
RQ3検証ギャップのある自己選択に対して、並列スケーリングの実用的な価値はどれくらいか？
RQ4統一環境で動作する際、エージェントはドメイン横断ツールをどのように活用するのか？
RQ5General AgentBenchの下で各モデルファミリー（例：Claude、GPT-5、Open-Sourceモデル）はどれだけ堅牢か？

主な発見

多くのモデルで一般エージェント設定へ切り替えると性能が大幅に低下する（平均およそ10–30%低下）。
逐次スケーリングは文脈の上限を示し、それを超える長い履歴はほぼ利益を生まないか、性能を低下させる。
並列スケーリングは上限を引き上げる（pass@K の増加）一方で、自己選択の検証ギャップにより実用的な利得は限られ、外部検 verifier が内部判断を下回ることがある。
クロスドメインツール利用は、元のドメインを超えたツールを活用することで一部モデルの性能を向上させる。
Claude Sonnet 4.5 は比較的堅牢だが、いくつかのオープンモデルは一般エージェント設定でより大きな低下を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。