[論文レビュー] Benchmark Test-Time Scaling of General LLM Agents
General AgentBench は統一環境で10のLLMエージェントを多領域タスクで評価し、逐次および並列のテスト時スケーリングを分析して堅牢性のギャップと限界を明らかにする。
LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.
研究の動機と目的
- ドメイン別設定を超えた汎用的なLLMエージェントの評価を促進する。
- 多様なドメインとツールを1つのインターフェースに統合したUnified AgentBenchを作成する。
- 現実的な多領域タスクにおける逐次および並列のテスト時スケーリングが性能に与える影響を研究する。
- 専門的な設定から一般エージェント設定へ移行する際のモデルファミリー間の堅牢性ギャップを定量化する。
提案手法
- コード、検索、ツール利用、推論の領域を統合したUnified MCPベースのツールインターフェースを備えたGeneral AgentBenchを導入する。
- 共有ホストを介して全タスクとツールを公開し、共通の評価環境を作成する。
- 統一ポリシーと固定デコード設定(温度0.7、コンテキスト>タスク最大値)を用いて10の主要LLMを評価する。
- 対話履歴を拡張することで逐次スケーリングを分析し、複数の trajectory をサンプリングすることで並列スケーリングを分析する(pass@Kと自己選択)。
- 生成と自己選択の検証ギャップを含む外部検 verifier 比較(GPT-5)を含む、クロスドメインツール利用と検証のギャップを評価する。

実験結果
リサーチクエスチョン
- RQ1ドメイン特化から一般エージェント評価へ移行することで、さまざまなドメインで性能が低下するのか?
- RQ2一般エージェントにおける逐次テスト時スケーリングの限界(文脈長と性能の関係)は?
- RQ3検証ギャップのある自己選択に対して、並列スケーリングの実用的な価値はどれくらいか?
- RQ4統一環境で動作する際、エージェントはドメイン横断ツールをどのように活用するのか?
- RQ5General AgentBenchの下で各モデルファミリー(例:Claude、GPT-5、Open-Sourceモデル)はどれだけ堅牢か?
主な発見
- 多くのモデルで一般エージェント設定へ切り替えると性能が大幅に低下する(平均およそ10–30%低下)。
- 逐次スケーリングは文脈の上限を示し、それを超える長い履歴はほぼ利益を生まないか、性能を低下させる。
- 並列スケーリングは上限を引き上げる(pass@K の増加)一方で、自己選択の検証ギャップにより実用的な利得は限られ、外部検 verifier が内部判断を下回ることがある。
- クロスドメインツール利用は、元のドメインを超えたツールを活用することで一部モデルの性能を向上させる。
- Claude Sonnet 4.5 は比較的堅牢だが、いくつかのオープンモデルは一般エージェント設定でより大きな低下を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。