[论文解读] Survey on Evaluation of LLM-based Agents
一份全面综述,映射基于LLM的代理在基础能力、应用领域、通用基准和开发框架方面的评估方法,并概述关键趋势与差距。
The emergence of LLM-based agents represents a paradigm shift in AI, enabling autonomous systems to plan, reason, use tools, and maintain memory while interacting with dynamic environments. This paper provides the first comprehensive survey of evaluation methodologies for these increasingly capable agents. We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) application-specific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents. Our analysis reveals emerging trends, including a shift toward more realistic, challenging evaluations with continuously updated benchmarks. We also identify critical gaps that future research must address-particularly in assessing cost-efficiency, safety, and robustness, and in developing fine-grained, and scalable evaluation methods. This survey maps the rapidly evolving landscape of agent evaluation, reveals the emerging trends in the field, identifies current limitations, and proposes directions for future research.
研究动机与目标
- 绘制基于LLM的代理的四个基础评估维度:能力、应用特定基准、通用代理和评估框架。
- 综合网络、软件工程、科学与对话代理的基准与评估策略。
- 识别成本效益、安全性、鲁棒性以及可扩展评估方法方面的新兴趋势与关键差距。
- 为代理评估领域的未来研究与开发提供方向。
提出的方法
- 系统性评审在四个评估维度中引用的现有基准和框架。
- 按能力(计划、工具使用、自我反思、记忆)和应用域对基准进行组织。
- 分析评估的真实感等趋势以及对持续更新基准的需求。
- 突出成本、安全性、鲁棒性,以及细粒度、可扩展评估方法的空白。
- 概述与开发环境集成、支持端到端评估的框架。
实验结果
研究问题
- RQ1现存哪些评估方法用于评估基于LLM的代理的基本能力(计划、工具使用、自我反思、记忆)?
- RQ2应用特定的、通用的以及基于框架的评估如何构建,存在哪些差距?
- RQ3当前代理评估实践的主流趋势与差距是什么,未来工作的重点应放在哪里?
- RQ4实时基准和持续评估如何影响基于LLM的代理的发展?
主要发现
- 正在转向更现实、具有挑战性的评估,基准持续更新。
- 在评估成本效益、安全性和鲁棒性方面仍存在关键差距。
- 需要覆盖多领域、细粒度、可扩展且易于集成的评估方法。
- 在计划、工具使用、自我反思和记忆方面的基准揭示了当前代理的不同能力与局限。
- 框架和环境正被越来越多地用于支持端到端的代理开发与评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。