Skip to main content
QUICK REVIEW

[論文レビュー] HieraMAS: Optimizing Intra-Node LLM Mixtures and Inter-Node Topology for Multi-Agent Systems

Tianjun Yao, Zhaoyi Li|arXiv (Cornell University)|Feb 23, 2026
Advanced Graph Neural Networks被引用数 0
ひとこと要約

HieraMASは、超ノード内に内部ノードのLLM混成を含む階層的MASを提案し、超ノード間のトポロジをグラフ分類で最適化することで、コスト効率を高めつつ最先端の結果を達成します。個々ノードのクレジット割り当てのために多段階の報酬を使用し、トポロジを全体的なグラフスコアリングとして扱います。

ABSTRACT

Multi-agent systems (MAS) built on large language models (LLMs) have shown strong performance across many tasks. Most existing approaches improve only one aspect at a time, such as the communication topology, role assignment, or LLM routing, while treating each agent as a single, indivisible unit. This misses the opportunity to use mixtures of LLMs within an agent to strengthen role-specific abilities. We propose HieraMAS, a hierarchical collaboration framework that combines intra-node LLM mixtures with an inter-node communication topology. HieraMAS introduces supernodes, where each functional role is implemented by multiple heterogeneous LLMs using a propose-synthesis structure. Optimizing HieraMAS creates unique credit-assignment challenges: final task performance depends heavily on the underlying LLMs' capabilities, which can lead reinforcement methods to incorrectly reward suboptimal configurations. To address this, we use a two-stage algorithm: (1) multi-level reward attribution, which provides fine-grained feedback at both the node level and the overall system level; (2) graph classification for topology selection, which treats choosing the communication structure as a holistic decision rather than optimizing edges one by one. Experiments on reasoning and coding benchmarks show that HieraMAS substantially outperforms existing methods while also delivering better cost-performance trade-offs.

研究の動機と目的

  • 超ノード内のLLM混成を活用してMAS性能を向上させる動機づけ。
  • 超ノード内構成(LLM選択と役割保持)とノード間通信トポロジの共同最適化。
  • 多段階の報酬と全体的なグラフベースのトポロジ選択でクレジット割り当ての課題を解決。
  • 推論・コーディングのベンチマークで優れた性能とコスト効iciencyを実証。

提案手法

  • 提案手法として、混成LLMを含むスーパーノードを導入し、提案-統合構造を用意。
  • 状態、行動(役割選択、LLM選択、エッジ選択)、報酬を用いたMDPとしてMASを定式化し、精度とコストのバランスを取る。
  • ステージ1: ランダムグラフトポロジーを用いた多段階報酬でノード内LLM選択を学習。
  • ステージ2: 候補DAGのプールからノード間トポロジを選択するグラフ分類器を訓練し、エッジレ벨のクレジット割り当てを回避。
  • コストに敏感な報酬関数を用いて、安価で正確な解を促進。
  • 2段階アプローチの理論的正当化と、そのクレジット割り当て上の利点を示す。
Figure 1 : Illustration of two credit assignment challenges in joint optimization and our solutions. Challenge 1 : Final task rewards mask individual node errors—Node 2 produces incorrect output but receives high reward $R_{2}=0.92$ . HieraMAS addresses this via multi-level rewards that provide effe
Figure 1 : Illustration of two credit assignment challenges in joint optimization and our solutions. Challenge 1 : Final task rewards mask individual node errors—Node 2 produces incorrect output but receives high reward $R_{2}=0.92$ . HieraMAS addresses this via multi-level rewards that provide effe

実験結果

リサーチクエスチョン

  • RQ1超ノード内のLLM混成は、個々の役割能力と全体のMAS性能を改善するか。
  • RQ2全体的なグラフ分類によるノード間トポロジの学習は、エッジ単位のトポロジ最適化より効果的か。
  • RQ3多段階の報酬は、共同最適化設定で正しい役割別クレジット割り当てを可能にするか。
  • RQ4LLM選択、役割保持、トポロジを同時に最適化する際のコストと性能のトレードオフはどうなるか。

主な発見

MethodMultiTopoRoleNodeGPT-5-MiniQwen3-80BGPT-5-MiniQwen3-80BGPT-5-MiniQwen3-80BAvg.
Base89.0684.1477.7874.4492.0082.4083.14
CoT87.5085.9492.2290.0093.6089.6089.81
Self-Consistency89.0687.5093.3391.1194.4083.2089.77
Self-Consistency+CoT90.6285.9494.4492.2293.6092.8091.60
LLM-Debate87.5087.5094.4494.4492.8092.0091.45
Full-Graph89.0692.1995.5696.6794.4088.8092.78
Random-Graph85.9492.1993.3394.4491.2088.0090.85
AFlow95.3198.4495.5684.4491.2091.2092.69
GDesigner90.6293.7591.1187.7792.0088.8090.68
MASRouter96.8898.4491.1188.8888.3381.6790.89
Ours93.7596.8896.6795.5695.2089.6094.61
  • HieraMASは3つのベンチマークを横断して平均正確度94.61%を達成。
  • Full-Graph(完全連結)は高い精度を示すが、HieraMASよりはるかに高いコスト。
  • アブレーションにより、グラフトポロジスコアリングとLLM選択の両方が性能とコスト効率に寄与。
  • 学習されたトポロジはスパースで不規則で、トップグラフ間で一貫したシンク/ソース役割を持つ。
  • ノード内LLM混成は能力とコストのバランスを取り、均一に最強モデルを用いる設定を上回る。
  • 私たちのアプローチはHumanEval++, MATH、MMLU-Reduxでベースラインを常に上回る。
Figure 2 : The overall framework of HieraMAS . By optimizing a policy learner $\pi_{m}$ with multi-level rewards (Stage 1) and a graph classifier $f_{G}(\cdot)$ with contrastive rewards (Stage 2), HieraMAS learns to select optimal supernode configurations and communication topologies. During inferen
Figure 2 : The overall framework of HieraMAS . By optimizing a policy learner $\pi_{m}$ with multi-level rewards (Stage 1) and a graph classifier $f_{G}(\cdot)$ with contrastive rewards (Stage 2), HieraMAS learns to select optimal supernode configurations and communication topologies. During inferen

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。