QUICK REVIEW

[論文レビュー] Survey on Evaluation of LLM-based Agents

Asaf Yehudai, Lilach Eden|ArXiv.org|Mar 20, 2025

Industrial Technology and Control Systems被引用数 6

ひとこと要約

LLMベースのエージェントの基盤的能力、適用分野、汎用ベンチマーク、開発フレームワークを横断する評価手法の包括的な調査を行い、主要なトレンドとギャップを概説する。

ABSTRACT

The emergence of LLM-based agents represents a paradigm shift in AI, enabling autonomous systems to plan, reason, use tools, and maintain memory while interacting with dynamic environments. This paper provides the first comprehensive survey of evaluation methodologies for these increasingly capable agents. We systematically analyze evaluation benchmarks and frameworks across four critical dimensions: (1) fundamental agent capabilities, including planning, tool use, self-reflection, and memory; (2) application-specific benchmarks for web, software engineering, scientific, and conversational agents; (3) benchmarks for generalist agents; and (4) frameworks for evaluating agents. Our analysis reveals emerging trends, including a shift toward more realistic, challenging evaluations with continuously updated benchmarks. We also identify critical gaps that future research must address-particularly in assessing cost-efficiency, safety, and robustness, and in developing fine-grained, and scalable evaluation methods. This survey maps the rapidly evolving landscape of agent evaluation, reveals the emerging trends in the field, identifies current limitations, and proposes directions for future research.

研究の動機と目的

LLMベースのエージェントの4つの基礎的評価次元（能力、アプリケーション固有のベンチマーク、汎用エージェント、評価フレームワーク）を整理・対応づける。
Web、ソフトウェア工学、科学、対話型エージェントのベンチマークと評価戦略を統合・総合する。
費用対効果、セーフティ、安全性、頑健性、そしてスケーラブルな評価手法の新興トレンドと重要なギャップを特定する。
エージェント評価における今後の研究開発の方向性を示す。

提案手法

4つの評価次元にわたって引用される既存のベンチマークとフレームワークを体系的にレビューする。
能力（計画、ツール利用、自己反省、メモリ）およびアプリケーションドメイン別にベンチマークを整理する。
評価の現実性と継続的に更新されるベンチマークの必要性などの傾向を分析する。
コスト、セーフティ、安全性、粒度の高い、スケーラブルな評価手法のギャップを指摘する。
エンドツーエンド評価を支援する開発環境と統合されたフレームワークを要約する。

実験結果

リサーチクエスチョン

RQ1基本的なLLMベースのエージェントの能力（計画、ツール利用、自己反省、メモリ）を評価するための評価手法にはどのようなものがあるか？
RQ2アプリケーション固有、汎用、フレームワークベースの評価はどのように構築され、どのギャップが残っているか？
RQ3現在のエージェント評価実践における主要なトレンドとギャップは何で、今後の研究はどこに焦点を当てるべきか？
RQ4ライブベンチマークと継続的評価はLLMベースのエージェントの発展にどのような影響を与えるか？

主な発見

継続的に更新されるベンチマークを伴う、より現実的で挑戦的な評価へとシフトしている。
LLMベースのエージェントのコスト効率、安全性、頑健性の評価にはなお重要なギャップが残っている。
複数ドメインにまたがる、細粒度でスケーラブルかつ統合可能な評価手法が求められている。
計画、ツール利用、自己反省、メモリにおけるベンチマークは、現在のエージェントの能力と限界をさまざまに示している。
フレームワークと環境は、エンドツーエンドのエージェント開発と評価を支援するためにますます用いられている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。