QUICK REVIEW

[논문 리뷰] Survey on Evaluation of LLM-based Agents

Asaf Yehudai, Lilach Eden|ArXiv.org|2025. 03. 20.

Industrial Technology and Control Systems인용 수 6

한 줄 요약

LLM 기반 에이전트의 기본 역량, 적용 도메인, 일반형 벤치마크, 개발 프레임워크를 포괄적으로 매핑하고 주요 동향 및 격차를 제시하는 평가 방법론에 관한 포괄적 조사.

ABSTRACT

The emergence of LLM-based agents represents a paradigm shift in AI, enabling autonomous systems to plan, reason, use tools, and maintain memory while interacting with dynamic environments. This paper provides the first comprehensive survey of evaluation methodologies for these increasingly capable agents. We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) application-specific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents. Our analysis reveals emerging trends, including a shift toward more realistic, challenging evaluations with continuously updated benchmarks. We also identify critical gaps that future research must address-particularly in assessing cost-efficiency, safety, and robustness, and in developing fine-grained, and scalable evaluation methods. This survey maps the rapidly evolving landscape of agent evaluation, reveals the emerging trends in the field, identifies current limitations, and proposes directions for future research.

연구 동기 및 목표

LLM 기반 에이전트의 네 가지 기본 평가 차원(역량, 적용 도메인별 벤치마크, 일반형 에이전트, 평가 프레임워크)을 매핑한다.
웹, 소프트웨어 엔지니어링, 과학, 대화형 에이전트 전반의 벤치마크 및 평가 전략을 종합한다.
비용 효율성, 안전성, 견고성, 확장 가능한 평가 방법의 emerging trends 및 핵심 격차를 식별한다.
에이전트 평가의 향후 연구 및 개발 방향을 제시한다.

제안 방법

네 가지 평가 차원에서 인용된 기존 벤치마크와 프레임워크를 체계적으로 검토한다.
벤치마크를 역량(계획, 도구 사용, 자기 성찰, 메모리) 및 적용 도메인별로 정리한다.
평가의 현실성 및 지속적으로 업데이트되는 벤치마크의 필요성과 같은 경향을 분석한다.
비용, 안전성, 견고성 및 세부적이고 확장 가능한 평가 방법의 격차를 강조한다.
종단 간 평가를 지원하기 위해 개발 환경과 연계된 프레임워크를 요약한다.

실험 결과

연구 질문

RQ1기본 LLM 기반 에이전트 역량(계획, 도구 사용, 자기 성찰, 메모리)을 평가하기 위한 기존의 평가 방법론은 무엇인가?
RQ2적용 도메인별, 일반형, 프레임워크 기반 평가가 어떻게 구성되며 어떤 격차가 남아 있는가?
RQ3현 에이전트 평가 관행의 현황에서 두드러진 동향과 격차는 무엇이며 향후 연구는 어디에 초점을 맞춰야 하는가?
RQ4실시간 벤치마크와 지속적 평가가 LLM 기반 에이전트의 발전에 어떤 영향을 미치는가?

주요 결과

더 현실적이고 도전적인 평가로의 전환과 지속적으로 업데이트되는 벤치마크의 확보가 이루어지고 있다.
LLM 기반 에이전트의 비용 효율성, 안전성 및 견고성 평가에 여전히 중요한 격차가 남아 있다.
다양한 도메인에 걸친 세밀하고 확장 가능한 평가 방법이 필요하다.
계획, 도구 사용, 자기 성찰, 메모리에서의 벤치마크가 현재 에이전트의 다양한 역량과 한계를 드러낸다.
프레임워크와 개발 환경은 엔드투엔드 에이전트 개발 및 평가를 지원하기 위해 점점 더 많이 사용되고 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.