[论文解读] VillagerAgent: A Graph-Based Multi-Agent Framework for Coordinating Complex Task Dependencies in Minecraft
VillagerAgent 引入基于 DAG 的多智能体框架和 VillagerBench 基准,用于在 Minecraft 中协调复杂的空间、因果和时间任务依赖,优于 AgentVerse 在任务分解方面并减少幻觉。
In this paper, we aim to evaluate multi-agent systems against complex dependencies, including spatial, causal, and temporal constraints. First, we construct a new benchmark, named VillagerBench, within the Minecraft environment.VillagerBench comprises diverse tasks crafted to test various aspects of multi-agent collaboration, from workload distribution to dynamic adaptation and synchronized task execution. Second, we introduce a Directed Acyclic Graph Multi-Agent Framework VillagerAgent to resolve complex inter-agent dependencies and enhance collaborative efficiency. This solution incorporates a task decomposer that creates a directed acyclic graph (DAG) for structured task management, an agent controller for task distribution, and a state manager for tracking environmental and agent data. Our empirical evaluation on VillagerBench demonstrates that VillagerAgent outperforms the existing AgentVerse model, reducing hallucinations and improving task decomposition efficacy. The results underscore VillagerAgent's potential in advancing multi-agent collaboration, offering a scalable and generalizable solution in dynamic environments. The source code is open-source on GitHub (https://github.com/cnsdqd-dyb/VillagerAgent).
研究动机与目标
- 在动态环境下,推动对具有复杂依赖关系(空间、因果、时间)的多智能体系统的评估。
- 以 Minecraft 为基础创建 VillagerBench 作为测试协作和任务同步的基准。
- 提出 VillagerAgent,一种以 DAG 驱动的框架,包含 Task Decomposer、Agent Controller 和 State Manager,以提升协调能力。
- 展示使用 VillagerBench 时相较于现有模型在任务分解改进和幻觉降低的结果。
提出的方法
- 将子任务定义为 DAG 节点,包含 T(描述)、D(数据)、C(分配的智能体)、F(反馈)。
- 使用 Task Decomposer 通过零-shot chain-of-thought 提示在每轮生成并更新子任务的 DAG,以产生 JSON 格式的子任务规格。
- 通过环境状态和智能体状态,利用 LLM 查询,将待执行子任务指派给基础智能体。
- 实现 State Manager 以维护环境和智能体状态,包括环境检索和智能体状态更新。
- 基础智能体通过受 ReAct 启发的迭代循环执行子任务,带有动作历史 H_i 和反馈 F_j,在迭代/时间限制后进行自我反思以获取反馈。
- 使用 VillagerBench 对三个任务(Construction Cooperation、Farm-to-Table Cooking、Escape Room Challenge)进行评估,并与 AgentVerse 进行比较。
实验结果
研究问题
- RQ1基于 DAG 的框架在多智能体协作中如何有效管理复杂依赖关系(空间、因果、时间)?
- RQ2与先前模型如 AgentVerse 相比,VillagerAgent 是否在 Minecraft 基准测试中改进任务分解、减少幻觉并提升协调?
- RQ3在 VillagerBench 中,智能体数量和能力多样性对协作任务性能有何影响?
主要发现
| 模型 | 建筑任务平均分 | 逃生挑战平均分 | C (%) | VHR (%) | E (%/min) | B (%) |
|---|---|---|---|---|---|---|
| gemini-pro | 8.12 | 13.83 | 0.76 | 63.74 | 69.2 | 153.3 |
| glm-4 | 23.16 | 29.36 | 2.37 | 81.12 | 68.17 | 100.8 |
| gpt-4-1106-preview | 36.45 | 49.05 | 3.88 | 95.38 | 73.29 | 149.4 |
| gpt-4-1106-preview (3-agents) | 52.17 | 61.02 | 6.26 | 89.83 | 69.78 | 227.4 |
- VillagerAgent 在 Farm-to-Table Cooking 任务上实现比 AgentVerse 更高的任务完成率和协调指标。
- GPT-4-1106-preview 搭配 VillagerAgent 在建筑、逃生室和烹饪任务上表现最佳;GLM-4 与 Gemini-Pro 在某些指标上落后。
- 尽管每次行动使用的标记数多于 AgentVerse,VillagerAgent 展现出更少的幻觉和更低的 token 成本,表明资源使用更高效。
- 随着智能体数量增加,性能提升到某一阈值后由于协调复杂性和资源竞争而下降。
- 多样化的智能体能力在某些任务中可能阻碍协调并降低效率,突显能力丰富性与协调简化之间的权衡。
- 在 Overcooked-AI 基准中,VillagerAgent 的表现优于 ProAgent,尤其是在 Forced Coordination 场景,并且在跨任务的提示下具有可迁移性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。