[논문 리뷰] Benchmark Test-Time Scaling of General LLM Agents
General AgentBench는 단일 환경에서 다중 도메인 작업에 걸친 10개의 LLM 에이전트를 평가하고, 순차적 및 병렬 테스트 타임 스케일링을 분석하여 견고성의 격차와 한계를 드러낸다.
LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.
연구 동기 및 목표
- 도메인 특화된 설정을 넘어 일반 목적의 LLM 에이전트를 평가하도록 동기를 부여한다.
- 다양한 도메와 도구를 하나의 인터페이스 아래 결합하는 Unified AgentBench를 만든다.
- 실제적이고 다중 도메인 작업에서 순차적 및 병렬 테스트 타임 스케일링이 성능에 미치는 영향을 연구한다.
- 전문적인 설정에서 일반 에이전트 설정으로 이동할 때 모델 계열 간의 견고성 격차를 정량화한다.
제안 방법
- 통합 MCP 기반 도구 인터페이스를 갖춘 Coding, Search, Tool-use, Reason 도메인을 포괄하는 General AgentBench를 도입한다.
- 공통 평가 환경을 만들기 위해 모든 작업과 도구를 공유 호스트를 통해 노출한다.
- 일관된 정책과 고정 디코딩 설정(temperature 0.7, contexts > task max)을 사용하여 10개의 선도 LLM을 평가한다.
- 상호 작용 이력을 확장하여 순차적 스케일링을 분석하고 여러 경로를 샘플링하여 병렬 스케일링을 분석한다 (pass@K 및 self-choice).
- 도메인 간 도구 사용과 생성과 자기선택 간의 검증 격차를 평가하고, 외부 검증기 비교(GPT-5)를 포함한다.

실험 결과
연구 질문
- RQ1도메인 특화에서 일반 에이전트 평가로의 이동이 다양한 도메인에서 성능 저하를 가져오는가?
- RQ2일반 에이전트에서 순차적 테스트 타임 스케일링의 한계는 무엇인가(맥락 길이와 성능의 관계).
- RQ3생성과 자기선택 간의 검증 격차를 고려할 때 병렬 스케일링의 실용적 가치는 무엇인가?
- RQ4에이전트가 통합 환경에서 도메인 간 도구를 어떻게 활용하는가?
- RQ5General AgentBench에서 각 모델 계열(예: Claude, GPT-5, 오픈소스 모델)의 견고성은 어느 정도인가?
주요 결과
- 일반 에이전트 설정으로 전환할 때 대부분의 모델에서 상당한 성능 저하가 나타내며(평균 약 10–30% 감소).
- 순차적 스케일링은 맥락의 한계를 보여주며, 더 긴 히스토리가 거의 이득을 주지 않거나 성능을 저하시키는 경우가 있다.
- 병렬 스케일링은 상한을 높이지만, 실제 이득은 자기선택의 검증 격차에 의해 제한되며, 외부 검증기가 때때로 내부 판단보다 낮은 성능을 보인다.
- 도메인 간 도구 사용은 일부 모델의 성능을 향상시키는 데 도움이 될 수 있다.
- Claude Sonnet 4.5는 비교적 견고하지만, 여러 오픈 모델은 일반 에이전트 설정에서 더 큰 저하를 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.