QUICK REVIEW

[論文レビュー] VillagerAgent: A Graph-Based Multi-Agent Framework for Coordinating Complex Task Dependencies in Minecraft

Yubo Dong, Xukun Zhu|arXiv (Cornell University)|Jun 9, 2024

Service-Oriented Architecture and Web Services被引用数 6

ひとこと要約

VillagerAgentは、Minecraftにおける複雑な空間的・因果的・時間的タスク依存関係を調整するためのDAGベースのマルチエージェントフレームワークとVillagerBenchベンチマークを導入し、タスク分解の面でAgentVerseを上回り、ハルシネーションを低減します。

ABSTRACT

In this paper, we aim to evaluate multi-agent systems against complex dependencies, including spatial, causal, and temporal constraints. First, we construct a new benchmark, named VillagerBench, within the Minecraft environment.VillagerBench comprises diverse tasks crafted to test various aspects of multi-agent collaboration, from workload distribution to dynamic adaptation and synchronized task execution. Second, we introduce a Directed Acyclic Graph Multi-Agent Framework VillagerAgent to resolve complex inter-agent dependencies and enhance collaborative efficiency. This solution incorporates a task decomposer that creates a directed acyclic graph (DAG) for structured task management, an agent controller for task distribution, and a state manager for tracking environmental and agent data. Our empirical evaluation on VillagerBench demonstrates that VillagerAgent outperforms the existing AgentVerse model, reducing hallucinations and improving task decomposition efficacy. The results underscore VillagerAgent's potential in advancing multi-agent collaboration, offering a scalable and generalizable solution in dynamic environments. The source code is open-source on GitHub (https://github.com/cnsdqd-dyb/VillagerAgent).

研究の動機と目的

動的環境における複雑な依存関係（空間的・因果的・時間的）下でのマルチエージェントシステムの評価を促す。
協調とタスク同期を検証するMinecraftベースのベンチマークとしてVillagerBenchを作成する。
Task Decomposer、Agent Controller、State Managerを備えたDAG駆動フレームワークであるVillagerAgentを提案し、協調を改善する。
VillagerBenchを用いて、既存モデルと比較してタスク分解の改善とハルシネーションの低減を示す。

提案手法

サブタスクをDAGノードとして定義し、T（描述）、D（データ）、C（割り当てられたエージェント）、F（フィードバック）を付与する。
0ショット思考過程 prompting を用いて、ラウンドごとにサブタスクのDAGを生成・更新し、JSON形式のサブタスク仕様を作成するTask Decomposerを使用する。
環境状態とエージェント状態に基づき、LLMクエリを介して実行準備ができたサブタスクを基底エージェントに割り当てるAgent Controllerを採用する。
環境取得とエージェント状態の更新を含む、環境とエージェント状態を維持するState Managerを実装する。
ベースエージェントは、ReActに触発された反復ループでサブタスクを実行し、アクション履歴H_iとフィードバックF_jを用い、反復数/時間で制限し、その後フィードバックの自己反省を行う。
VillagerBenchを用いて3つのタスク（Construction Cooperation、Farm-to-Table Cooking、Escape Room Challenge）を評価し、AgentVerseと比較する。

実験結果

リサーチクエスチョン

RQ1DAGベースのフレームワークは、マルチエージェント協働における複雑な依存関係（空間的・因果的・時間的）をどれだけ効果的に管理できるか。
RQ2VillagerAgentは、タスク分解を改善し、ハルシネーションを減らし、MinecraftベースのベンチマークでAgentVerseのような従来モデルと比較して協調を強化するか。
RQ3VillagerBench内でエージェント数と能力の多様性が協調タスクのパフォーマンスに与える影響は何か。

主な発見

Models	Construction Task Avg. Score	Escape Challenge Avg. Score	C (%)	VHR (%)	E (%/min)	B (%)
gemini-pro	8.12	13.83	0.76	63.74	69.2	153.3
glm-4	23.16	29.36	2.37	81.12	68.17	100.8
gpt-4-1106-preview	36.45	49.05	3.88	95.38	73.29	149.4
gpt-4-1106-preview (3-agents)	52.17	61.02	6.26	89.83	69.78	227.4

Farm-to-Table CookingタスクでVillagerAgentはAgentVerseより高いタスク完了率と協調指標を達成する。
GPT-4-1106-previewはVillagerAgentを搭載した場合、建設、エスケープルーム、料理タスクの総合パフォーマンスで最良を示す。GLM-4とGemini-Proは一部の指標で遅れ。
VillagerAgentはAgentVerseより1アクションあたりのトークン数が多くても、ハルシネーションが少なく、トークンコストが低く、リソース使用がより効率的であることを示す。
エージェント数が増えると一定点までは性能が向上するが、協調の複雑さと資源競合によりその後低下する。
多様なエージェント能力は一部のタスクで協調を妨げ、効率を低下させることがあり、能力の豊富さと協調の単純さのトレードオフを浮き彫りにする。
Overcooked-AIベンチマークでVillagerAgentはProAgentを上回り、特にForced Coordinationシナリオで優位を示し、タスク間でプロンプトの転移性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。