[논문 리뷰] Multi-Agent Teams Hold Experts Back
논문은 자기 조직화된 다중 에이전트 LLM 팀이 전문가 구성원을 활용하는 데 지속적으로 실패하여 심리학 과제와 ML 벤치마크에서 최고의 개별 멤버를 8.1%에서 37.6%까지 능가하지 못한다는 것을 보여주며, 이는 전문 지식을 활용하는 방식(또는 활용하지 못하는 방식) 때문입니다.
Multi-agent LLM systems are increasingly deployed as autonomous collaborators, where agents interact freely rather than execute fixed, pre-specified workflows. In such settings, effective coordination cannot be fully designed in advance and must instead emerge through interaction. However, most prior work enforces coordination through fixed roles, workflows, or aggregation rules, leaving open the question of how well self-organizing teams perform when coordination is unconstrained. Drawing on organizational psychology, we study whether self-organizing LLM teams achieve strong synergy, where team performance matches or exceeds the best individual member. Across human-inspired and frontier ML benchmarks, we find that -- unlike human teams -- LLM teams consistently fail to match their expert agent's performance, even when explicitly told who the expert is, incurring performance losses of up to 37.6%. Decomposing this failure, we show that expert leveraging, rather than identification, is the primary bottleneck. Conversational analysis reveals a tendency toward integrative compromise -- averaging expert and non-expert views rather than appropriately weighting expertise -- which increases with team size and correlates negatively with performance. Interestingly, this consensus-seeking behavior improves robustness to adversarial agents, suggesting a trade-off between alignment and effective expertise utilization. Our findings reveal a significant gap in the ability of self-organizing multi-agent teams to harness the collective expertise of their members.
연구 동기 및 목표
- 자기 조직화된 이종 LLM 팀이 강력한 시너지를 달성하고 최고 멤버에 맞먹거나 능가할 수 있는지 여부를 조사합니다.
- 전문가 식별의 실패 때문인지 아니면 상호 작용 중 전문 지식 활용의 실패 때문인지를 검토합니다.
- 자체 조직형 AI 팀에서 강력한 시너지가 결여되는 구조적 및 상호 작용적 요인을 식별합니다.
제안 방법
- 제어 가능한 전문가 분포 하에서 AI 에이전트를 사용하여 고전적인 인간 팀워크 과제(NASA Moon Survival, Lost at Sea, Student Body President)를 재현합니다.
- 자연스럽게 분포된 전문가 지식을 가진 frontier ML 벤치마크(MMLU Pro, GPQA Diamond, HLE, MATH-500, SimpleQA)를 평가합니다.
- 전문가 비공개, 공개, 또는 최고의 개인이 대표하는 조건 간의 차이를 비교하여 성능 격차를 분해합니다.
- 랭킹 과제에 대해 L1 오차를 사용한 성능 측정과 구성 간의 상대 시너지 차이를 평가합니다.
- 전문가 식별과 전문 지식 활용을 구분하기 위한 자기 제거 실험을 수행합니다.
- 역학적 요인(지식의 순응성 vs. 통합적 타협)이 성능에 미치는 영향을 연결하기 위한 대화 분석을 수행합니다.
실험 결과
연구 질문
- RQ1이질적 LLM 팀이 강력한 시너지를 스스로 조직하여 최고 멤버에 맞먹거나 능가할 수 있는가?
- RQ2전문가를 식별하지 못해서 인한 단점인가, 식별된 후 전문 지식을 활용하지 못해서 인한 단점인가?
- RQ3팀 규모, 협상 스타일 등 어떤 구조적/상호 작용 요인이 강한 시너지가 없는 것과 상관관계가 있는가?
주요 결과
| Table 1: Relative Synergy Gaps across Human Psychology Tasks | Table 2: Performance on ML benchmarks | |||
|---|---|---|---|---|
| NASA Moon Survival | 78.7% ± 11.6% | 81.8% ± 12.9% | 113.4% ± 19.0% | 110.1% ± 19.0% |
| Lost at Sea | 55.6% ± 8.4% | 58.6% ± 11.5% | 50.1% ± 8.3% | 42.1% ± 6.9% |
| Student Body President | 98.7% ± 19.3% | 73.5% ± 17.6% | 66.0% ± 16.6% | 17.3% ± 17.7% |
| SimpleQA | 50.0% | 54.0% | 61.5% | 18.7% |
| GPQA Diamond | 74.0% | 82.0% | 88.5% | 16.4% |
| HLE Text-Only | 29.0% | 35.0% | 46.5% | 37.6% |
| MATH-500 | 67.0% | 73.0% | 79.0% | 15.2% |
| MMLU Pro | 85.0% | 89.0% | 92.5% | 8.1% |
- LLM 팀은 최고의 멤버를 지속적으로 따라잡지 못하며, 상대 시너지 차이는 과제별로 8.1%에서 37.6% 범위이다.
- 주요 병목은 식별보다는 전문 지식 활용이며, 전문가를 드러내도 얻는 이점은 제한적이다.
- 팀은 통합적 타협을 보이며 전문가 및 비전문가의 관점을 평균하지만, 이는 성능과 음의 상관을 보이고 팀 규모가 커질수록 악화된다.
- 합의 추구 행동은 적대적 에이전트에 대한 강건성을 제공하나, 전문 지식 활용과 조작 저항 사이의 트레이드 오프를 시사한다.
- 전문성의 희석은 팀 규모가 커질수록 증가하여 전문가에 비해 성능을 낮춘다(상관관계 유의, p<0.05).
- 심리학 과제에서 전문가에게 의존하도록 프롬프트를 최적화해도 팀은 전문가를 능가하지 못하는 대략적인 차이를 보인다(예: Lost at Sea Concentrated: 약 55.6% 상대 시너지 격차, Expert Not Mentioned인 경우).
- ML 벤치마크는 다양한 조건에서 상대 시너지 격차가 8.1%(MMLU Pro)에서 37.6%(HLE Text-Only)까지 나타나며, 문제당 최상의 전문가가 알려진 경우에도 마찬가지이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.