QUICK REVIEW

[논문 리뷰] LiveAgentBench: Comprehensive Benchmarking of Agentic Systems Across 104 Real-World Challenges

Hao Li, Huan Wang|arXiv (Cornell University)|2026. 03. 03.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

LiveAgentBench는 104개의 실제 세계 시나리오에서 자율 에이전트를 벤치마크하고, 현재 모델/에이전트와 인간 성능 사이에 상당한 차이가 있음을 보여주며, 업데이트를 위한 SPDG 데이터 생성 워크플로우를 도입합니다.

ABSTRACT

As large language models grow more capable, general AI agents have become increasingly prevalent in practical applications. However, existing benchmarks face significant limitations, failing to represent real-world user tasks accurately. To address this gap, we present LiveAgentBench, a comprehensive benchmark with 104 scenarios that reflect real user requirements. It is constructed from publicly sourced questions on social media and real-world products. Central to our approach is the Social Perception-Driven Data Generation (SPDG) method, a novel process we developed to ensure each question's real-world relevance, task complexity, and result verifiability. We evaluate various models, frameworks, and commercial products using LiveAgentBench, revealing their practical performance and identifying areas for improvement. This release includes 374 tasks, with 125 for validation and 249 for testing. The SPDG process enables continuous updates with fresh queries from real-world interactions.

연구 동기 및 목표

실세계 작업을 해결하는 에이전트 시스템에 대한 현실적이고 지속적으로 업데이트되는 벤치마크의 필요성을 자극한다.
실제 사용자 데이터에서 비롯된 104개 시나리오로 LiveAgentBench를 도입하여 실용적 요구를 반영한다.
지속 가능한 데이터 생산과 업데이트를 위한 사회적 인지 주도 데이터 생성(SPDG)을 제안한다.
강점, 약점, 개선 영역을 식별하기 위해 오픈 소스/클로즈드 소스 LLM 및 에이전트를 평가한다.

제안 방법

실제 사용자 질문을 공개 플랫폼에서 수집하여 104개 시나리오 범주와 374개 작업(125 검증, 249 테스트)을 형성한다.
SPDG를 적용하여 작업을 생성, 주석 달기 및 이중 맹검 표기와 제3자 검토를 통해 일관성을 확인한다.
문자열 매칭을 통한 고정 정답 작업에서 제로샷 프롬프트와 Pass@1로 모델 및 에이전트를 평가한다.
텍스트, 이미지, 오디오, 비디오 등 다중 모달 및 실제 세계 능력(브라우저, 파일, OS 등)을 분석한다.
오픈 소스와 상용 에이전트 및 LLM을 비교하여 도구 사용과 안정성이 성능에 미치는 영향을 식별한다.

Figure 1: An overview of LiveAgentBench, introducing the construction process of the evaluation dataset from real user cases. It is accompanied by the summary results of LiveAgentBench. "W&S" represents Work and Study, "DL" represents Daily Life, "IA&P" represents Information Access and Processing,

실험 결과

연구 질문

RQ1현재의 LLM과 자율 에이전트가 인간과 비교하여 104개의 실제 세계의 도구 의존적 작업에서 어떻게 성능을 보이는가?
RQ2도구 통합과 환경적 백그라운드 지식이 현실 세계 시나리오에서 에이전트의 성능에 어떤 영향을 미치는가?
RQ3시나리오 범주(Work & Study, Daily Life, Information Access & Processing, Humanities & Social Science, Social Production) 및 모달리티(text, image, video, audio) 간에는 성능이 어떻게 달라지는가?
RQ4에이전트의 작업 실패 원인(도구 불안정성, 환경 지식 격차)은 무엇이며 SPDG가 이를 어떻게 해결할 수 있는가?
RQ5LiveAgentBench가 에이전트 시스템의 지속적 평가를 위한 벤치마크로서 얼마나 안정적이고 최신 상태인가?

주요 결과

주제	종합	시나리오	능력	W&S	DL	IA&P	H&SS	SP	텍스트 파일	이미지
LLMs	7.75	16.39	8.25	6.38	3.61	6.17	8.02	0	0	0
Claude35-sonnet	8.28	13.11	9.28	8.51	4.82	7.41	6.13	15.13	0	0
GPT-4o	9.09	13.11	11.34	4.26	6.02	9.88	5.19	19.33	0	0
Gemini-2.5-pro	16.85	19.67	18.56	12.77	19.28	13.58	12.26	27.73	16.0	0
Deepseek-R1	9.89	21.31	6.19	6.38	8.43	9.88	13.2	0	0	0
Gemini Deep Research	14.17	11.48	12.37	19.15	10.84	17.28	24.3	0	0	0
Manus	35.29	40.98	31.18	40.42	39.76	28.40	37.85	35.29	16.0	33.33
OpenAI Deep Research	27.54	19.67	28.87	38.30	20.48	25.93	33.49	24.17	4.0	13.33
Perplexity Research	23.80	26.23	25.77	29.79	24.10	13.58	30.95	20.17	0	0
Coze Space	18.45	19.67	19.59	19.15	15.66	17.28	25.23	10.08	0	13.33
AWorld	15.51	21.31	13.40	12.77	16.87	14.82	13.81	19.33	16.0	13.33
Human	69.25	75.41	74.23	74.47	62.65	64.20	73.33	60.50	80.0	73.33

모든 평가 대상 제품은 인간에 비해 성능이 미치고 있으며, 최상위 제품의 성공률은 약 35.29%로 인간의 69.25%에 미치다.
내부 도구를 가진 에이전트는 LLM보다 평균적으로 약 56.51% 높은 성능을 보이나 도구의 안정성이 결과에 강하게 영향을 준다.
환경적 배경 지식의 격차가 낯선 웹사이트에서 정보를 찾는 에이전트의 능력을 저해한다.
AWorld 기반 평가에서 내부 도구의 불안정성으로 인한 작업 실패가 약 11.76%였다.
Manus가 최고 점수 에이전트(35.29%)이며, 그 외에 다른 에이전트들이 뒤를 잇고 카테고리 전반에서 인간 성능과의 큰 차이가 있다.
Gemini Deep Research는 다중 모달 업로드 부족으로 Gemini 2.5-pro에 뒤처지며, 실제 세계 작업에 도구 기능의 가치를 강조한다.

Figure 2: 104 Real-World Challenges in LiveAgentBench.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.