QUICK REVIEW

[論文レビュー] LiveAgentBench: Comprehensive Benchmarking of Agentic Systems Across 104 Real-World Challenges

Hao Li, Huan Wang|arXiv (Cornell University)|Mar 3, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

LiveAgentBenchは104の現実世界シナリオで自律エージェントをベンチマークし、現在のモデル/エージェントと人間の性能のギャップを大きく示すとともに、更新のためのSPDGデータ生成ワークフローを導入します。

ABSTRACT

As large language models grow more capable, general AI agents have become increasingly prevalent in practical applications. However, existing benchmarks face significant limitations, failing to represent real-world user tasks accurately. To address this gap, we present LiveAgentBench, a comprehensive benchmark with 104 scenarios that reflect real user requirements. It is constructed from publicly sourced questions on social media and real-world products. Central to our approach is the Social Perception-Driven Data Generation (SPDG) method, a novel process we developed to ensure each question's real-world relevance, task complexity, and result verifiability. We evaluate various models, frameworks, and commercial products using LiveAgentBench, revealing their practical performance and identifying areas for improvement. This release includes 374 tasks, with 125 for validation and 249 for testing. The SPDG process enables continuous updates with fresh queries from real-world interactions.

研究の動機と目的

現実世界のタスクを解決するエージェントシステムの現実的で継続的に更新されるベンチマークの必要性を動機づける。
現実のユーザデータから得られた104のシナリオを用いて、実用的要件を反映するLiveAgentBenchを紹介する。
持続可能なデータ生成と更新のためのSocial Perception-Driven Data Generation（SPDG）を提案する。
強み・弱み・改善領域を特定するために、オープンソース/クローズドソースのLLMとエージェントを評価する。

提案手法

公開プラットフォームから実ユーザの質問を収集して104シナリオカテゴリと374タスクを形成する（125検証、249テスト）。
SPDGを適用してタスクを生成・注釈付け・検証し、二重盲検ラベリングと第三者レビューによる一貫性を確保する。
固定回答タスクに対して文字列マッチングによるゼロショットプロンプティングとPass@1でモデルとエージェントを評価する。
モダリティ（テキスト、画像、音声、ビデオ）と現実世界の能力（ブラウザ、ファイル、OS等）を横断して性能を分析する。
オープンソース対商用エージェントとLLMを比較して、ツール使用と安定性が性能に与える影響を特定する。

Figure 1: An overview of LiveAgentBench, introducing the construction process of the evaluation dataset from real user cases. It is accompanied by the summary results of LiveAgentBench. "W&S" represents Work and Study, "DL" represents Daily Life, "IA&P" represents Information Access and Processing,

実験結果

リサーチクエスチョン

RQ1現在のLLMと自律エージェントは、人間と比較して104の現実世界かつツール依存のタスクでどの程度の性能を示すか？
RQ2ツール統合と環境知識が現実世界のシナリオにおけるエージェント性能に与える影響は何か？
RQ3シナリオカテゴリ（Work & Study、Daily Life、Information Access & Processing、Humanities & Social Science、Social Production）およびモダリティ（テキスト、画像、ビデオ、音声）で性能はどう変化するか？
RQ4エージェントのタスク失敗は何が原因か（ツールの不安定さ、環境知識のギャップ）を特定し、SPDGはこれをどう解決するか？
RQ5LiveAgentBenchはエージェント系システムの継続的評価のベンチマークとしてどれだけ安定で最新か？

主な発見

Subject	Overall	Scenario	Capability	W&S	DL	IA&P	H&SS	SP	Text File	Image
LLMs	7.75	16.39	8.25	6.38	3.61	6.17	8.02	0	0	0
Claude35-sonnet	8.28	13.11	9.28	8.51	4.82	7.41	6.13	15.13	0	0
GPT-4o	9.09	13.11	11.34	4.26	6.02	9.88	5.19	19.33	0	0
Gemini-2.5-pro	16.85	19.67	18.56	12.77	19.28	13.58	12.26	27.73	16.0	0
Deepseek-R1	9.89	21.31	6.19	6.38	8.43	9.88	13.2	0	0	0
Gemini Deep Research	14.17	11.48	12.37	19.15	10.84	17.28	24.3	0	0	0
Manus	35.29	40.98	31.18	40.42	39.76	28.40	37.85	35.29	16.0	33.33
OpenAI Deep Research	27.54	19.67	28.87	38.30	20.48	25.93	33.49	24.17	4.0	13.33
Perplexity Research	23.80	26.23	25.77	29.79	24.10	13.58	30.95	20.17	0	0
Coze Space	18.45	19.67	19.59	19.15	15.66	17.28	25.23	10.08	0	13.33
AWorld	15.51	21.31	13.40	12.77	16.87	14.82	13.81	19.33	16.0	13.33
Human	69.25	75.41	74.23	74.47	62.65	64.20	73.33	60.50	80.0	73.33

すべての評価対象製品は人間には及ばず、最高製品でも成功率は約35.29%で、人間の69.25%に対して低い。
内蔵ツールを持つエージェントはLLMsより平均約56.51%高いが、ツールの安定性が結果に強く影響する。
環境知識のギャップは、未知のウェブサイト上で情報を見つける能力を阻害する。
AWorldベースの評価では、内蔵ツールの不安定さにより約11.76%のタスク失敗が生じた。
Manusが最も高いスコア（35.29%）で、他のエージェントが続くが、カテゴリ横断で人間の性能との差が顕著。
Gemini Deep Researchはマルチモーダルアップロードの欠如によりGemini 2.5-proに遅れを取り、実世界タスクにはツール機能の価値を強調する。

Figure 2: 104 Real-World Challenges in LiveAgentBench.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。