[논문 리뷰] General Agent Evaluation
이 논문은 Exgentic과 통합 프로토콜을 도입하여 다양한 벤치마크에서 일반 목적 에이전트를 평가하고, Open General Agent Leaderboard를 통해 모델 품질이 작업 전반의 성능을 지배함을 보여준다.
The promise of general-purpose agents - systems that perform tasks in unfamiliar environments without domain-specific engineering - remains largely unrealized. Existing agents are predominantly specialized, and while emerging implementations like OpenAI SDK Agent and Claude Code hint at broader capabilities, no systematic evaluation of their general performance has been pursued. Current agentic benchmarks assume domain-specific integration, encoding task information in ways that preclude fair evaluation of general agents. This paper frames general-agent evaluation as a first-class research objective. We propose conceptual principles for such evaluation, a Unified Protocol enabling agent-benchmark integration, and Exgentic - a practical framework for general agent evaluation. We benchmark five prominent agent implementations across six environments as the first Open General Agent Leaderboard. Our experiments show that general agents generalize across diverse environments, achieving performance comparable to domain-specific agents without any environment-specific tuning. We release our evaluation protocol, framework, and leaderboard to establish a foundation for systematic research on general-purpose agents.
연구 동기 및 목표
- 다양한 이질적 벤치마크에서 일반-purpose AI 에이전트를 평가하기 위한 이론 및 실용 프레임워크 제안.
- 벤치마크 의미를 에이전트 구현으로부터 분리하기 위한 통합 중재 프로토콜.
- 확장 가능한 평가 도구(Exgentic)와 Open General Agent Leaderboard를 제공하여 체계적인 비교를 촉진.
제안 방법
- Unified Protocol을 Task, Context, Actions 필드를 가진 중재 계층으로 정의하여 에이전트를 벤치마크 구체성으로부터 분리한다.
- 에이전트 API와 벤치마크 프로토콜 간의 변환 어댑터를 갖춘 오케스트레이션 프레임워크로 Exgentic를 도입한다.
- Open General Agent Leaderboard를 만들기 위해 다섯 개의 에이전트 아키텍처를 여섯 환경에서 세 가지 프런티어 LLM으로 벤치마크한다.
- 성능의 분산을 분석하여 모델 품질, 에이전트 아키텍처, 작업 난이도를 성능의 주요 동인으로 분리한다.
- 구성 간 비용-성능 트레이드오프와 구성 요소 기여(메모리, 계획, 도구 축약) 평가.

실험 결과
연구 질문
- RQ1다양한 벤치마크에 대해 환경별 튜닝 없이 일반 목적 에이전트가 일반화할 수 있는가?
- RQ2주로 일반-에이전트 성능을 좌우하는 요인은 모델 품질인가, 에이전트 아키텍처인가?
- RQ3크로스 도메인 능력에 가장 크게 기여하는 에이전트 구성요소는 무엇인가?
- RQ4모델-에이전트 구성에서 비용-성능과 안정성은 어떻게 달라지는가?
- RQ5단일 에이전트가 모든 벤치마크를 지배하는가, 아니면 모델과 작업 페어링에 따라 결과가 달라지는가?
주요 결과
| 일반 에이전트 | 모델 | 평균 성공 | 평균 비용 | 앱 월드 | 브라우즈 컴플러스 | SWE 벤치V | 타우 2 항공사 | 타우 2 소매 | 타우 2 통신 |
|---|---|---|---|---|---|---|---|---|---|
| OpenAI Solo | Claude Opus 4.5 | .73 | $8.5 | .68 | .61 | .81 | .74 | .85 | .84 |
| Claude Code | Claude Opus 4.5 | .67 | $8.0 | .66 | .53 | .74 | .66 | .83 | .76 |
| Smolagent | Claude Opus 4.5 | .66 | $4.4 | .70 | .61 | .65 | .72 | .78 | .58 |
| ReAct Short | Gemini 3 | .62 | $0.7 | .55 | .48 | .71 | .70 | .82 | .73 |
| ReAct Short | Claude Opus 4.5 | .62 | $3.8 | .64 | .49 | .61 | .66 | .78 | .76 |
| ReAct | Gemini 3 | .61 | $0.8 | .51 | .48 | .71 | .70 | .82 | .73 |
| ReAct | Claude Opus 4.5 | .61 | $5.8 | .61 | .49 | .61 | .66 | .78 | .76 |
| OpenAI Solo | Gemini 3 | .60 | $2.8 | .58 | .33 | .72 | .62 | .73 | .89 |
| Claude Code | Gemini 3 | .57 | $2.5 | .36 | .51 | .67 | .70 | .78 | .69 |
| Smolagent | Gemini 3 | .56 | $1.8 | .13 | .57 | .76 | .68 | .76 | .88 |
| ReAct Short | GPT 5.2 | .46 | $0.3 | .22 | .46 | .57 | .54 | .73 | .54 |
| ReAct | GPT 5.2 | .41 | $0.2 | .00 | .46 | .57 | .54 | .73 | .54 |
| OpenAI Solo | GPT 5.2 | .39 | $0.2 | .00 | .48 | .55 | .50 | .54 | .53 |
| Claude Code | GPT 5.2 | .38 | $0.4 | .00 | .43 | .58 | .48 | .51 | .55 |
| Smolagent | GPT 5.2 | .38 | $0.4 | .07 | .26 | .53 | .60 | .68 | .71 |
- 모델 품질이 구성 전반의 성능 분산의 대다수를 설명하며, 에이전트 아키텍처가 상대적으로 작게 설명한다.
- Claude Opus 4.5가 일반적으로 평균 성능이 가장 높게 나타나고, 도구가 풍부한 환경 실패로 인해 GPT-5.2가 최하위를 기록한다.
- 구성 간 비용-효율성은 구성에 따라 크게 달라지며 최대 약 33배까지 차이가 나타나며, 이는 모델 선택과 도구 사용에 의해 좌우된다.
- 단일 에이전트가 모든 벤치마크를 지배하지는 않으며, OpenAI Solo와 네 가지 Claude/OpenAI 조합이 서로 다른 작업에서 우수하여 강한 모델 의존적 효과를 시사한다.
- 도구 축약 및 스키마 가드가 도구가 풍부한 환경에서 성능과 로버스트니스를 향상시킨다.
- 크로스 벤치마크 상의 상관관계는 보통에서 강하게 나타나며, 모델 품질이 일반적 경향을 좌우하는 반면 에이전트 순위는 모델에 따라 달라진다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.