QUICK REVIEW

[論文レビュー] MASPOB: Bandit-Based Prompt Optimization for Multi-Agent Systems with Graph Neural Networks

Zhi Hong, Qian Zhang|arXiv (Cornell University)|Mar 3, 2026

Advanced Graph Neural Networks被引用数 0

ひとこと要約

MASPOB はトポロジー認識型 GNN サロゲートとバンドイットベースの探索および座標上昇を組み合わせて、予算制約下で最先端の結果を達成するマルチエージェント LLM ワークフローのプロンプトを最適化します。

ABSTRACT

Large Language Models (LLMs) have achieved great success in many real-world applications, especially the one serving as the cognitive backbone of Multi-Agent Systems (MAS) to orchestrate complex workflows in practice. Since many deployment scenarios preclude MAS workflow modifications and its performance is highly sensitive to the input prompts, prompt optimization emerges as a more natural approach to improve its performance. However, real-world prompt optimization for MAS is impeded by three key challenges: (1) the need of sample efficiency due to prohibitive evaluation costs, (2) topology-induced coupling among prompts, and (3) the combinatorial explosion of the search space. To address these challenges, we introduce MASPOB (Multi-Agent System Prompt Optimization via Bandits), a novel sample-efficient framework based on bandits. By leveraging Upper Confidence Bound (UCB) to quantify uncertainty, the bandit framework balances exploration and exploitation, maximizing gains within a strictly limited budget. To handle topology-induced coupling, MASPOB integrates Graph Neural Networks (GNNs) to capture structural priors, learning topology-aware representations of prompt semantics. Furthermore, it employs coordinate ascent to decompose the optimization into univariate sub-problems, reducing search complexity from exponential to linear. Extensive experiments across diverse benchmarks demonstrate that MASPOB achieves state-of-the-art performance, consistently outperforming existing baselines.

研究の動機と目的

ワークフローのトポロジーが固定され、専門家による検証を前提としたとき、 MAS の性能を改善する主要なレバーとしてのプロンプト最適化を動機づける。
トポロジーに起因する結合と評価予算の制限を尊重するサンプル効率的な最適化手法を開発する。
トポロジー対応の予測、不確実性に基づく探索、スケーラブルな探索を組み合わせたプロンプト構成のフレームワークを提案する。
QA、コード生成、数学の多様なベンチマークにわたる手法の有効性を示す。

提案手法

各エージェントのプロンプトを d 次元の埋め込みとしてエンコードし、DAG の隣接行列を用いて MAS ワークフローをグラフとしてモデル化する。
グラフアテンションネットワーク（GAT）サロゲートを用いて、MASグラフ上のトポロジー認識的なメッセージパッシングを実行して性能を予測する。
探索を文脈バンディットとして定式化し、LinUCB を適用して、予測される高性能プロンプトの活用と不確実なものの探索をバランスさせる。
プロンプトの組み合わせを結合埋め込みとして表現し、情報行列を維持して不確実性を計算し UCB 採択関数を構築する。
結合プロンプト最適化を一次元の更新に分解することで、エージェント数の増加に対して指数的だった複雑さを線形に削減する。
検証セットで選択されたプロンプト組み合わせを反復的に評価し、GNNと情報行列を更新し、最良の構成を追跡する。

実験結果

リサーチクエスチョン

RQ1 MASPOB によるプロンプト最適化を、エンドツーエンド評価の高コスト性の下でどのようにサンプル効率化できるか？
RQ2 トポロジー認識的な MAS ワークフローのモデリングは、協調的なプロンプト構成の促進を改善できるか？
RQ3 固定予算で組合せ的なプロンプト空間をバンドイド指向の座標上昇探索が効果的にナビゲートできるか？
RQ4 トポロジー認識サロゲートと不確実性に基づく探索は、タスクと LLM のバックボーンを横断して一般化できるか？

主な発見

方法	HotpotQA	DROP	HumanEval	MBPP	GSM8K	MATH	Avg.
IO (GPT-4o-mini)	60.36 ±0.48	53.09 ±0.36	89.31 ±2.02	69.11 ±1.19	87.80 ±0.44	51.71 ±0.43	68.56
CoT (Wei et al., 2022)	67.62 ±0.48	58.27 ±0.42	89.57 ±1.16	69.89 ±1.19	88.34 ±0.18	52.47 ±1.25	71.03
ReAct (Yao et al., 2022)	65.61 ±0.22	67.25 ±0.85	87.79 ±1.32	66.08 ±1.48	88.91 ±0.24	52.61 ±0.62	71.38
PromptBreeder (Fernando et al., 2023)	68.76 ±0.18	71.85 ±0.87	88.80 ±2.45	70.38 ±0.36	91.97 ±0.80	52.13 ±0.97	73.98
Instinct (Lin et al., 2023)	69.92 ±0.17	71.90 ±0.53	90.08 ±2.76	70.23 ±1.14	92.64 ±0.39	52.40 ±1.52	74.53
AFlow (Zhang et al., 2024)	73.42 ±0.38	79.48 ±0.12	91.09 ±0.44	79.96 ±0.67	93.36 ±0.43	53.83 ±0.40	78.52
MIPRO (Opsahl-Ong et al., 2024a)	74.37 ±1.07	79.13 ±0.59	91.35 ±0.44	80.65 ±0.36	92.80 ±0.42	54.90 ±0.61	78.87
MASPOB	75.43 ±0.27	82.28 ±0.55	94.15 ±0.44	80.65 ±0.29	93.90 ±0.15	57.05 ±0.51	80.58

MASPOB は六つのベンチマークで最良の結果を達成し、平均スコアは 80.58% 。
同じ検証予算の 50 評価の下で、MASPOB は IO、AFlow、MIPRO と比較してそれぞれ 12.02%、2.06%、1.71% の改善を実現。
アブレーションにより GNN を削除すると平均性能が 2.31% 下がり、トポロジーモデリングが有意な利益を提供することを示す。
MASPOB は別の LLM バックボーン（Qwen-3-32B）へ一般化し、一貫した改善を示す。
座標上昇と MASPOB 採択関数の組み合わせは、グローバル探索に近い性能を達成しつつ、ホットポタクエイのようなケースで最大 99.8% の実行時間短縮を実現。
より複雑な MAS 構造においても、MASPOB は比較法の中でトップの成績を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。