[논문 리뷰] VillagerAgent: A Graph-Based Multi-Agent Framework for Coordinating Complex Task Dependencies in Minecraft
VillagerAgent는 Minecraft에서 복잡한 공간적, 인과적, 시간적 작업 의존성을 조정하기 위한 DAG 기반 다중 에이전트 프레임워크와 VillagerBench 벤치마크를 도입하고, 작업 분해에서 AgentVerse를 능가하며 환각 현상을 감소시킨다.
In this paper, we aim to evaluate multi-agent systems against complex dependencies, including spatial, causal, and temporal constraints. First, we construct a new benchmark, named VillagerBench, within the Minecraft environment.VillagerBench comprises diverse tasks crafted to test various aspects of multi-agent collaboration, from workload distribution to dynamic adaptation and synchronized task execution. Second, we introduce a Directed Acyclic Graph Multi-Agent Framework VillagerAgent to resolve complex inter-agent dependencies and enhance collaborative efficiency. This solution incorporates a task decomposer that creates a directed acyclic graph (DAG) for structured task management, an agent controller for task distribution, and a state manager for tracking environmental and agent data. Our empirical evaluation on VillagerBench demonstrates that VillagerAgent outperforms the existing AgentVerse model, reducing hallucinations and improving task decomposition efficacy. The results underscore VillagerAgent's potential in advancing multi-agent collaboration, offering a scalable and generalizable solution in dynamic environments. The source code is open-source on GitHub (https://github.com/cnsdqd-dyb/VillagerAgent).
연구 동기 및 목표
- 동적 환경에서 복잡한 의존성(공간적, 인과적, 시간적)을 갖는 다중 에이전트 시스템의 평가를 동기화한다.
- 협업 및 작업 동기화를 시험하기 위한 Minecraft 기반 벤치마크로 VillagerBench를 만든다.
- 조정(coordination)을 향상시키기 위해 Task Decomposer, Agent Controller, State Manager를 갖춘 DAG 구동 프레임워크인 VillagerAgent를 제안한다.
- VillagerBench를 사용하여 기존 모델과 비교했을 때 향상된 작업 분해와 감소된 환각 현상을 입증한다.
제안 방법
- 서브태스크를 DAG 노드로 정의하되 T(설명), D(데이터), C(할당 에이전트), F(피드백)를 포함한다.
- 제로샷 체인 오브 생각 프롬팅을 통해 라운드마다 서브태스크의 DAG를 생성/업데이트하고 JSON 형식의 서브태스크 명세를 산출한다.
- 환경 상태와 에이전트 상태에 따라 실행 준비가 된 서브태스크를 기본 에이전트에 할당하기 위해 LLM 질의를 통해 할당한다.
- 환경 검색 및 에이전트 상태 업데이트를 포함하여 환경 및 에이전트 상태를 유지하는 State Manager를 구현한다.
- 기반 에이전트는 ReAct에서 영감을 받은 반복 루프(H_i의 행동 기록 및 F_j의 피드백 포함, 반복/시간 제한으로 제한)으로 서브태스크를 실행하고 피드백에 대한 자기 성찰을 수행한다.
- 세 가지 작업(Construction Cooperation, Farm-to-Table Cooking, Escape Room Challenge) 전반에 걸쳐 VillagerBench로 평가하고 AgentVerse와 비교한다.
실험 결과
연구 질문
- RQ1DAG 기반 프레임워크가 다중 에이전트 협업에서 복잡한 의존성(공간적, 인과적, 시간적)을 얼마나 효과적으로 관리할 수 있는가?
- RQ2Minecraft 기반 벤치마크에서 AgentVerse와 같은 기존 모델에 비해 VillagerAgent가 작업 분해를 개선하고 환각을 줄이며 협조를 강화하는가?
- RQ3VillagerBench 내에서 에이전트 수와 능력 다양성이 협동 작업 성능에 미치는 영향은 무엇인가?
주요 결과
| 모델 | 구축 작업 평균 점수 | 탈출 도전 평균 점수 | C (%) | VHR (%) | E (%/분) | B (%) |
|---|---|---|---|---|---|---|
| gemini-pro | 8.12 | 13.83 | 0.76 | 63.74 | 69.2 | 153.3 |
| glm-4 | 23.16 | 29.36 | 2.37 | 81.12 | 68.17 | 100.8 |
| gpt-4-1106-preview | 36.45 | 49.05 | 3.88 | 95.38 | 73.29 | 149.4 |
| gpt-4-1106-preview (3-agents) | 52.17 | 61.02 | 6.26 | 89.83 | 69.78 | 227.4 |
- Farm-to-Table Cooking 작업에서 VillagerAgent가 AgentVerse보다 더 높은 작업 완수율과 협업 지표를 달성한다.
- VillagerAgent를 탑재한 GPT-4-1106-preview가 건설, 탈출실, 요리 작업 전반에서 최고의 성능을 보이고, GLM-4 및 Gemini-Pro는 일부 지표에서 뒤처진다.
- VillagerAgent는 AgentVerse보다 더 많은 토큰을 한 행동에 사용하는데도 환각이 더 적고 토큰 비용이 낮아 자원 사용이 더 효율적임을 보인다.
- 에이전트 수가 증가하면 일정 지점까지 성능이 향상되다가 협조 복잡성과 자원 경합으로 인해 감소한다.
- 다양한 에이전트 능력은 일부 작업에서 협조를 저해하고 효율성을 떨어뜨릴 수 있으며, 능력의 다양성와 협조의 단순성 사이의 트레이드오프를 강조한다.
- Overcooked-AI 벤치마크에서 VillagerAgent는 ProAgent를 능가하며, 특히 Forced Coordination 시나리오에서 우수하고, 여러 작업 간 프롬프트의 전이 가능성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.