QUICK REVIEW

[논문 리뷰] Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity

Yingxuan Yang, Chengrui Qu|arXiv (Cornell University)|2026. 02. 03.

Reinforcement Learning in Robotics인용 수 2

한 줄 요약

이 논문은 정보 이론적 프레임워크를 제시하여 MAS 성능이 고유한 작업 불확실성에 의해 한정되고, 에이전트 간 다양성이 균일한 확장에 비해 일관된 이익을 가져옴을 보여주며; 비중복 정보 원천을 정량화하기 위해 효과적 채널 수 K*를 도입하고 이를 실험으로 검증한다.

ABSTRACT

LLM-based multi-agent systems (MAS) have emerged as a promising approach to tackle complex tasks that are difficult for individual LLMs. A natural strategy is to scale performance by increasing the number of agents; however, we find that such scaling exhibits strong diminishing returns in homogeneous settings, while introducing heterogeneity (e.g., different models, prompts, or tools) continues to yield substantial gains. This raises a fundamental question: what limits scaling, and why does diversity help? We present an information-theoretic framework showing that MAS performance is bounded by the intrinsic task uncertainty, not by agent count. We derive architecture-agnostic bounds demonstrating that improvements depend on how many effective channels the system accesses. Homogeneous agents saturate early because their outputs are strongly correlated, whereas heterogeneous agents contribute complementary evidence. We further introduce $K^*$, an effective channel count that quantifies the number of effective channels without ground-truth labels. Empirically, we show that heterogeneous configurations consistently outperform homogeneous scaling: 2 diverse agents can match or exceed the performance of 16 homogeneous agents. Our results provide principled guidelines for building efficient and robust MAS through diversity-aware design. Code and Dataset are available at the link: https://github.com/SafeRL-Lab/Agent-Scaling.

연구 동기 및 목표

동질적 LLM 기반 MAS의 확장의 한계를 강조하여 연구의 필요성을 제시한다.
내재된 작업 불확실성에 의해 MAS 성능을 한정하는 정보 이론적 모델을 개발한다.
중복되지 않는 정보 소스를 정량화하기 위해 효과적 채널 수 K*와 보완성 속도 α를 도입한다.
동적 비교 가능한 계산 자원 하에서 이질적 구성이 동질적 확장보다 성능이 더 우수하다는 것을 실험적으로 검증한다.

제안 방법

입력 X와 타깃 Y로부터 트랜스크립트 Z1:n를 생성하는 n개의 에이전트 호출로 MAS를 형식화한다.
사용 가능한 증거 I_MAS(n) = I(Z1:n; Y | X)를 정의하고 그 증가 기여 Δi를 분석한다.
구조에 독립적인 상한을 도출하여 I_MAS(n) ≤ H(Y|X)와 구성 유형에 대한 의존성을 보여준다.
중복되지 않는 정보 채널을 포착하기 위해 효과적 채널 수 K와 보완성 속도 α를 도입한다.
에이전트 출력의 임베딩 공간 다양성에 기초하여 K의 라벨 없는 프록시로 K*를 제안한다.
이론적 결과(기하학적 수축)와 투표와 토론 워크플로 전반에 걸친 실증적 검증을 제공한다.

실험 결과

연구 질문

RQ1LLM 기반 다중 에이전트 시스템에서 스케일링을 제한하는 요인은 무엇인가?
RQ2에이전트 간 다양성은 정보 이득과 성능에 어떻게 영향을 미치며, 동질적 확장에 비해 어떤 차이가 있는가?
RQ3실제 메트릭을 사용하여 실제 정답 레이블 없이 중복되지 않는 정보 채널을 정량화할 수 있는가?
RQ4다른 MAS 워크플로우(투표 vs. 토론)가 에이전트 다양성에 따라 어떤 의존성 차이를 보이는가?

주요 결과

동질적 확장은 출력 상관관계가 높고 유효 채널이 감소하여 강한 수익 감소를 보인다.
다양성 인지적(이질적) MAS 구성은 매치된 계산 자원 하에서 일관되게 동질적 확장을 능가한다.
두 대의 다양한 에이전트가 크게 더 큰 동질 집합의 성능에 필적하거나 이를 초과할 수 있어 효율성 이점을 보인다.
보완성 속도 α와 효과적 채널 수 K의 곱 αK는 회복 가능한 정보를 지배하며 빠른 증가 후 느린 증가 패턴을 보인다.
K*는 실증적 성능을 추적하고 다양성이 증가함에 따라 증가하며, 더 높은 K*는 작업 전반에서 더 높은 정확도와 상관관계가 있다.
K*를 올바른 추론 다양성과 잘못된 추론 다양성으로 분해하면, 더 높은 K*c가 K*w에 비해 더 나은 성능과 일치하는 실증적 경계가 드러난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.