[論文レビュー] AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents
AGENTBOARDは、多様な部分的観測環境に跨る多ターンLLMエージェントを評価するための、統一されたオープンソースのベンチマークと分析フレームワークを提供します。最終的な成功率を超える洞察を強調します。
Evaluating Large Language Models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.
研究の動機と目的
- 多様で多回のタスクを網羅することで、最終的な成功率を超えたLLMエージェントの総合的な評価を促進する。
- 環境が部分的に観測可能で、現実世界のシナリオを反映するために長時間の相互作用を必要とすることを保証する。
- 細かな進捗率指標を導入し、段階的なエージェントの進展を捉える。
- エージェントのサブスキルと軌跡を診断する可視化機能を備えたオープンソースの分析ツールキットを提供する。
提案手法
- メモリとフィードバックを持つ多回サイクルで相互作用するリフレックスエージェントのための統一的なPOMDPベースのフレームワークを定義する。
- 各データサンプルに対してサブゴールを注釈付けし、離散的な進捗率とgへの連続的マッチングスコアを計算する。
- 目標をサブゴールに分解して、正規表現ベースの照合関数 f(·, gi) を用いて r_subgoal による進捗を計算する。
- 具現化(embodied)、ゲーム、ウェブ、ツールカテゴリにまたがる9つの多様な環境を選定し、多回・部分観測挑戦を保証する。
- 進捗率、グラウンディング精度、長距離相互作用、サブスキルのパフォーマンスを可視化するwandbベースのオープンソース評価パネルを開発する。
実験結果
リサーチクエスチョン
- RQ1細かな進捗率は、最終的な成功率と比較してLLMエージェントの能力をどの程度区別できるか?
- RQ2部分観測下のマルチターンエージェントタスクにおけるオープンウェイトと専有ウェイトのLLMの限界は何か?
- RQ3グラウンディング、世界モデル化、自己反省はマルチターン環境におけるエージェント能力の emergentにどのように影響するか?
- RQ4統一的な分析ツールキットは、将来のエージェント開発を導く軌道レベルの洞察を照らすことができるか?
主な発見
- 進捗率はタスク全体で最終成功率よりも判別力の高い洞察を提供する。似たような成功率のモデルでも進捗で異なることが多い。
- 商用(プロプライエタリ)モデルは一般にオープンウェイトモデルより優れており、タスク全体で平均進捗率のリードはGPT-4が主導する。
- コード・データ豊富な訓練とエージェント指示チューニングはオープンウェイトモデルのエージェント能力を向上させ、特にツール使用と長距離計画を要するタスクで効果が高い。
- グラウンディング精度はモデルとタスクによって異なる;指示チューニングだけでは全体的な性能向上を保証しない。
- 新たに出現するエージェント能力は、グラウンディング、ワールドモデリング、自己反省といった基礎的スキルと相関する。AGENTBOARDの分析は最終結果を超える微妙な軌道を明らかにする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。