[論文レビュー] Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity
この論文は情報理論的枠組みを提示し、MASの性能が内在的なタスク不確実性により限界づけられ、エージェント間の多様性が均質な拡張より一貫した利得をもたらすことを示す。非冗長情報源を定量化する有効チャンネル数 K* を導入し、実験で検証する。
LLM-based multi-agent systems (MAS) have emerged as a promising approach to tackle complex tasks that are difficult for individual LLMs. A natural strategy is to scale performance by increasing the number of agents; however, we find that such scaling exhibits strong diminishing returns in homogeneous settings, while introducing heterogeneity (e.g., different models, prompts, or tools) continues to yield substantial gains. This raises a fundamental question: what limits scaling, and why does diversity help? We present an information-theoretic framework showing that MAS performance is bounded by the intrinsic task uncertainty, not by agent count. We derive architecture-agnostic bounds demonstrating that improvements depend on how many effective channels the system accesses. Homogeneous agents saturate early because their outputs are strongly correlated, whereas heterogeneous agents contribute complementary evidence. We further introduce $K^*$, an effective channel count that quantifies the number of effective channels without ground-truth labels. Empirically, we show that heterogeneous configurations consistently outperform homogeneous scaling: 2 diverse agents can match or exceed the performance of 16 homogeneous agents. Our results provide principled guidelines for building efficient and robust MAS through diversity-aware design. Code and Dataset are available at the link: https://github.com/SafeRL-Lab/Agent-Scaling.
研究の動機と目的
- homogeneous LLM ベースMASのスケーリングの限界を強調して研究の動機を示す。
- 情報理論的モデルを開発し、 MAS の性能を内在タスク不確実性で限界づける。
- 有効チャンネル数 K* と補完率 α を導入して、非冗長情報源を定量化する。
- 比較計算量が揃ったとき、異質な構成が均質なスケーリングを上回ることを実証的に検証する。
提案手法
- MAS を n 個のエージェント呼び出しとして formalize し、入力 X から転写 Z1:n を出力 Y に対して作成する。
- usable evidence I_MAS(n) = I(Z1:n; Y | X) を定義し、その増分寄与 Δi を分析する。
- I_MAS(n) ≤ H(Y|X) というアーキテクチャに依存しない上限と、構成タイプの依存性を導出する。
- 非冗長情報チャネルを捉えるために有効チャンネル数 K と補完率 α を導入する。
- エージェント出力の埋め込み空間の多様性に基づくラベルなし代理変数としての K* を提案する。
- 幾何的収縮を含む理論結果と、投票ワークフローと討論ワークフローの実証検証を提供する。
実験結果
リサーチクエスチョン
- RQ1LLM ベースのマルチエージェントシステムでスケーリングにはどのような限界があるか?
- RQ2エージェント間の多様性は、情報利得と性能を均質なスケーリングと比べてどう影響するか?
- RQ3実データのラベルなしで非冗長情報チャネルを定量化する実用的指標は作れるか?
- RQ4異なる MAS ワークフロー(投票 vs 討論)はエージェントの多様性にどのように依存するか?
主な発見
- 均質なスケーリングは出力の相関が高く、有効チャンネル数が抑制されるため、収益が急速に逓減する。
- 多様性を意識した異種 MAS 構成は、計算量が一致する条件下で均質スケーリングを一貫して上回る。
- 二つの多様なエージェントは、はるかに大きな均質なアンサンブルと同等以上の性能を発揮でき、効率性の向上を示す。
- 補完率 α と有効チャンネル数 K の積である αK は回復可能な情報を支配し、急速な成長から緩慢な成長へのパターンを示す。
- K* は実証的な性能を追跡し、多様性が増すほど K* が増加し、タスク間での精度向上と正の相関を示す。
- K* を正しい推論の多様性と誤り推論の多様性に分解すると、K*c が K*w より大きい場合により良い性能と一致する実証的境界が現れる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。