[論文レビュー] PRISM: A Principled Framework for Multi-Agent Reasoning via Gain Decomposition
PRISMはマルチエージェント推論の探索・情報・統合の三つのゲインを分解し、これらを同時最適化する原理主義的な四段階フレームワークを提供、収束保証とともに三つのゲインを同時最大化し、数学、コード、ツール使用のベンチマークで最先端の結果と計算効率の高いスケーリングを実現。
Multi-agent collaboration has emerged as a promising paradigm for enhancing reasoning capabilities of Large Language Models (LLMs). However, existing approaches remain largely heuristic, lacking principled guidance on what drives performance gains and how to systematically optimize multi-agent reasoning. Specifically, it remains unclear why multi-agent collaboration outperforms single-agent reasoning and which design choices contribute most to these gains, making it difficult to build better systems. We address this gap by introducing a unified theoretical framework that decomposes multi-agent reasoning gains into three conceptually independent dimensions: Exploration for diverse solution coverage, Information for high-fidelity feedback, and Aggregation for principled consensus. Through this lens, existing methods can be understood as special cases that optimize only subsets of these dimensions. Building upon this decomposition, a novel framework called PRISM (Propose-Review-Integrate Synthesis for Multi-agent Reasoning) is proposed, which jointly maximizes all three dimensions through role-based diversity, execution-grounded feedback with evidence-based cross-evaluation, and iterative synthesis with closed-loop validation. Extensive experiments across mathematical reasoning, code generation, and function calling benchmarks demonstrate that PRISM achieves state-of-the-art performance with superior compute-efficiency compared to methods optimizing partial dimensions. The theoretical framework provides actionable design principles for future multi-agent reasoning systems.
研究の動機と目的
- ヒューリスティック手法を超えたマルチエージェント推論におけるゲインの推進要因を principled に理解する。
- 探索、情報、統合を独立かつ同時最適化可能な次元として扱う統一的なゲイン分解フレームワークを提案する。
- PRISM を導入し、四段階のワークフローで三つのゲインを理論保証と共に同時最大化する。
- 数学的推論、コード生成、機能呼び出しタスクにおける最先端の性能と計算効率の高いスケーリングを示す。
提案手法
- マルチエージェント推論の三次元ゲイン分解を提案する:探索(解空間のカバレッジ)、情報(高忠実度のフィードバック)、統合(合意の質)。
- 仮定を伴う集合 X, T, Q, K, E, f のタプルとして MAS を形式化し、乗法的ゲイン構造とサブ加法性の性質を導出する。
- 役割ベースの多様性がエージェントの成功の負の相関を誘発し、探索を改善することを示す。
- 情報ゲインはテキストフィードバックより実行に基づいたフィードバックによって最大化されると主張し、決定論的実行が利用できない場合のフォールバックとしてモデルベースの疑似検証を用意する。
- 単純な投票を証拠ベースの横断評価に置換して統合を改善し、合成段階を収束保証付きの閉ループプロセスとしてモデル化する。
- 四段階の PRISM ワークフローを提示する:Propose(多様な候補)、Execute(実証フィードバック)、Review(横断評価)、Synthesize(反復的な閉ループ精練)。
- 理論的な結果を提供する:ゲイン分解(定理 3.1)、情報の上限(命題 3.3)、相関エラー下での統合効率(命題 3.4)、収束/最適性(定理 3.5)。
実験結果
リサーチクエスチョン
- RQ1マルチエージェント推論において、単一エージェントのベースラインと比較して性能向上をもたらす仕組みは何か。
- RQ2ゲインは独立した最適化可能な次元に分解できるのか、そしてそれらは共同最適化とともにどのように相互作用するのか。
- RQ3理論保証を持つ探索、情報、統合ゲインを同時最大化する MAS をどう設計するか。
- RQ4数学、コード、ツール使用タスクにまたがる統合最適化フレームワークの実証的利点と計算効率はどの程度か。
主な発見
- PRISMは数学、コード、ツール使用のベンチマークで最先端の性能を示す。
- principled な三次元ゲイン分解(探索、情報、統合)は従来手法を特異例として説明・統一する。
- 役割ベースの多様性は相関エラーを減らし、探索ゲインを改善。
- 実行に基づくフィードバックはテキストフィードバックより情報ゲインを高め、全実行が利用不可の場合は疑似検証をフォールバックとして採用。
- 証拠ベースの横断評価は統合を強化し、相関エラー下での多数決の落とし穴を回避。
- PRISM の合成段階は理論的保証とともに安定した合意へ収束し、部分次元法と比較して計算量に応じた精度の持続的スケーリングを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。