[논문 리뷰] Scaling Large Language Model-based Multi-Agent Collaboration
MacNet은 DAG-구조의 다중 에이전트 협업을 사용하여 LLM 에이전트를 조직하고, 확장 가능한 상호 작용과 베이스라인 대비 우수한 결과를 가능하게 하며, with over a thousand agents 간 협력을 포함한다.
Recent breakthroughs in large language model-driven autonomous agents have revealed that multi-agent collaboration often surpasses each individual through collective reasoning. Inspired by the neural scaling law--increasing neurons enhances performance, this study explores whether the continuous addition of collaborative agents can yield similar benefits. Technically, we utilize directed acyclic graphs to organize agents into a multi-agent collaboration network (MacNet), upon which their interactive reasoning is topologically orchestrated for autonomous task solving. Extensive evaluations reveal that it effectively supports collaboration among over a thousand agents, with irregular topologies outperforming regular ones. We also identify a collaborative scaling law--the overall performance follows a logistic growth pattern as agents scale, with collaborative emergence occurring earlier than traditional neural emergence. We speculate this may be because scaling agents catalyzes their multidimensional considerations during interactive reflection and refinement, thereby producing more comprehensive artifacts. The code is available at https://github.com/OpenBMB/ChatDev/tree/macnet.
연구 동기 및 목표
- 신경 스케일링에서 영감을 받은 출현 행동을 활용하여 단일 에이전트 추론을 넘어선 확장 가능한 다중 에이전트 협업의 필요성 제시.
- MacNet을 설계하여 에이전트를 지시자(instructor)와 보조자(assistant) 역할로 구성된 directed acyclic graph로 조직.
- 위상 정렬을 통해 간선(instructor–assistant 대화) 따라 두 에이전트 간 상호 작용 라운드를 효율적으로 조정.
- 토폴로지 밀도와 구조가 성능 및 확장성에 미치는 영향을 조사.
- 협업 확장 법칙의 존재와 MacNet에서의 초기 협업 출현 여부를 확인.
제안 방법
- 노드를 보조자 에이전트에, 간선을 지시자 에이전트에 할당하는 DAG로 토폴로지 모델링.
- 상호 작용 라운드를 간선 따라 두 에이전트 간 대화(instructor–assistant conversations)를 조정하기 위해 위상 정렬 사용.
- 맥락의 확장을 유지하기 위해 짧은 기간의 내부-상호작용 메모리와 장기 최종 해법 전파를 포함한 메모리 제어 구현.
- 다양한 작업에 걸쳐 여러 토폴로지(체인, 트리, 그래프; 체인, 더 넓고 깊은 트리, 메시, 층별, 무작위 포함) 평가.
- MMLU, HumanEval, SRDD 및 CommonGen-Hard 벤치마크에서 기준 모델(CoT, AutoGPT, GPTSwarm, AgentVerse)과 비교.
실험 결과
연구 질문
- RQ1에이전트 수를 늘리면 신경 스케일링 법칙과 유사한 협업 능력이 나타나는가?
- RQ2다양한 MacNet 토폴로지(체인, 트리, 그래프 및 그 변형)가 작업 across tasks에 어떤 영향을 미치는가?
- RQ3네트워크 속성(예: 소형 세계 특성, 밀도)이 협업적 추론 및 해법의 질을 어떻게 최적화하는가?
- RQ4협업 출현이 신경 출현보다 더 빨리 일어날 수 있으며, 확장이 이에 어떤 영향을 미치는가?
- RQ5대규모 MacNet 토폴로지에서 메모리 제어가 확장성과 해법의 질에 어떤 영향을 미치는가?
주요 결과
| 방법 | MMLU | HumanEval | SRDD | CommonGen | AVG. |
|---|---|---|---|---|---|
| CoT | 0.3544 | 0.6098 | 0.7222 | 0.6165 | 0.5757 |
| AutoGPT | 0.4485 | 0.4809 | 0.7353 | 0.5972 | 0.5655 |
| GPTSwarm | 0.2368 | 0.4969 | 0.7096 | 0.6222 | 0.5163 |
| AgentVerse | 0.2977 | 0.7256 | 0.7587 | 0.5399 | 0.5805 |
| MacNet-Chain | 0.6632 | 0.3720 | 0.8056 | 0.5903 | 0.6078 |
| MacNet-Star | 0.4456 | 0.5549 | 0.7679 | 0.7382 | 0.6267 |
| MacNet-Tree | 0.3421 | 0.4878 | 0.8044 | 0.7718 | 0.6015 |
| MacNet-Mesh | 0.6825 | 0.5122 | 0.7792 | 0.5525 | 0.6316 |
| MacNet-Layered | 0.2780 | 0.4939 | 0.7623 | 0.7176 | 0.5629 |
| MacNet-Random | 0.6877 | 0.5244 | 0.8054 | 0.5912 | 0.6522 |
- MacNet은 다양한 작업과 토폴로지에서 일관되게 베Baseline보다 우수한 성능을 보인다.
- 밀도 높고 소형 세계와 유사한 토폴로지는 우수한 성능을 내는 경향이 있다(소형 세계 협업 현상).
- 협업 확장 법칙이 등장한다: 해법 질의 정규화는 에이전트 수가 증가함에 따라 로지스틱 성장으로 나타나며, 신경 출현보다 더 이른 시점에서 출현이 나타난다.
- 대부분의 토폴로지에서 적당한 규모(대략 2^4에서 2^5 에이전트)에서 성능 포화가 발생하며, 뉴런 규모의 확장을 필요로 하지 않는다.
- 불규칙/무작위 토폴로지는 경로 길이를 줄이는 쇼트컷으로 인해 정규 망보다 더 나은 성능을 낼 수 있다.
- 발산적 토폴로지는 자식이 부모보다 많은 구조에서 일반적으로 협업에 더 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.