Skip to main content
QUICK REVIEW

[論文レビュー] Who Deserves the Reward? SHARP: Shapley Credit-based Optimization for Multi-Agent System

Yanming Li, Xuelin Zhang|arXiv (Cornell University)|Feb 9, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

SHARPはShapleyベースの階層的クレジット割り当てと旅三部構成報酬設計を導入し、ツール拡張型マルチエージェントLLMシステムの学習を安定化・改善、単一エージェントおよび他のマルチエージェントベースラインより大幅な改善を実現します。

ABSTRACT

Integrating Large Language Models (LLMs) with external tools via multi-agent systems offers a promising new paradigm for decomposing and solving complex problems. However, training these systems remains notoriously difficult due to the credit assignment challenge, as it is often unclear which specific functional agent is responsible for the success or failure of decision trajectories. Existing methods typically rely on sparse or globally broadcast rewards, failing to capture individual contributions and leading to inefficient reinforcement learning. To address these limitations, we introduce the Shapley-based Hierarchical Attribution for Reinforcement Policy (SHARP), a novel framework for optimizing multi-agent reinforcement learning via precise credit attribution. SHARP effectively stabilizes training by normalizing agent-specific advantages across trajectory groups, primarily through a decomposed reward mechanism comprising a global broadcast-accuracy reward, a Shapley-based marginal-credit reward for each agent, and a tool-process reward to improve execution efficiency. Extensive experiments across various real-world benchmarks demonstrate that SHARP significantly outperforms recent state-of-the-art baselines, achieving average match improvements of 23.66% and 14.05% over single-agent and multi-agent approaches, respectively.

研究の動機と目的

  • ツール統合型MASにおけるクレジット割り当て課題に対処する。
  • 個々のエージェントの貢献を分離しつつ、全体タスクの整合性を保証する principledな報酬分解を設計する。
  • Shapleyベースの限界クレジットと三部構成報酬フレームワークを通じて、マルチエージェント学習を安定化・加速する。
  • 異なるベンチマークとモデルサイズにわたるクロス-task一般化とスケーラビリティを実証する。

提案手法

  • SHARPを提案する。Shapleyベースの階層的帰属フレームワークで、三部構成報酬設計:グローバルブロードキャッシュ精度、限界クレジット(Shapleyベース)報酬、ツールプロセス報酬。
  • 軌跡からエージェントを除去して因果影響を評価する反事実マスキング機構を用いる。
  • 軌跡グループ間でエージェント固有のアドバンテージを正規化し、低分散で一貫した勾配更新を達成する(グループ相対ポリシー勾配)。
  • プランナーとワーカを単一ポリシーからロールプロンプトでインスタンス化するパラメータ共有自己対戦設定を採用する。
  • 軌跡の破壊的削除を用いた反事実クレジット形式で限界クレジットを近似する(credit_i,m = R_acc(τ_i) − R_acc(τ_i ackslash m))。
  • 複数の軌跡に渡るエージェントごとのクリップされたアドバンテージを統合するSHARP目的関数で学習する。
Figure 1 : Existing credit assignment policy for all agents (left) and the precise strategy of SHARP for each individual agent (right).
Figure 1 : Existing credit assignment policy for all agents (left) and the precise strategy of SHARP for each individual agent (right).

実験結果

リサーチクエスチョン

  • RQ1SHARPは diverse benchmarks で単一エージェントおよびマルチエージェントのベースラインと比較してどう性能するか?
  • RQ2限界クレジットモデリングが性能に与える影響は何か、どの構成要素が改善に最も寄与するか?
  • RQ3タスクの異種性、モデルサイズ、トレーニング予算に対してSHARPはどの程度安定・スケーラブルか?
  • RQ4プランナー–ワーカーの協調とサブエージェントの有用性にSHARPがどう影響するか?

主な発見

MethodMASTRNBORMCRMuSiQueGAIA-textWebWalkerQAFRAMESAVG
LLaMA-3.1-8B RAG7.208.820.775.815.65
Qwen3-8B RAG8.6015.401.236.788.00
Plan-Search †26.6610.043.3210.7612.70
Plan-Search36.3527.486.7728.4824.77
Search-R1 ‡18.1114.152.3011.3011.47
Single-agent GRPO45.9327.977.4730.2027.89
Planner–Worker †35.2213.365.5721.2118.84
Planner–Worker38.2327.537.4232.1826.34
G-Designer38.5028.154.7028.2824.90
CARD45.0032.897.3827.3128.15
COA44.2832.007.2232.1028.90
AceSearcher †36.4120.057.0427.3822.72
MATPO47.0031.657.4737.1030.81
SHARP †46.1423.237.6025.7125.67
SHARP50.7633.708.5037.2932.56
  • SHARPはベースラインより平均パフォーマンスが高く、ベースライン単一エージェントに対して平均マッチゲイン23.66%、マルチエージェントに対して14.05%の改善をベンチマーク全体で達成。
  • 限界クレジットモデリングは一貫して最も良い全体性能をもたらし、アーキテクチャと最適化戦略を上回る。
  • SHARPはモデルサイズ(例: 0.6B〜8Bバックボーン)に対して効果的にスケールし、より大きなスケールでより大きな利点を提供(8Bバックボーンで最大14.41ポイント)。
  • 協調分析はSHARPがプランナーのスコアを改善し、有用なサブエージェントの割合を増加させつつ有害な相互作用を減少させることを示す。
  • SHARPはクロス-task一般化(DocMath-Eval)とステップごとの堅牢で単調なトレーニング改善を示し、安定した最適化を示唆する。
  • アブレーションは共同プランナー–ワーカクレジットが相乗効果を生み、プランナークレジットが分解を精練し、ワーカクレジットが実行とツール使用を改善することを示す。
Figure 2 : Overview of SHARP framework. The pipeline involves (a) hierarchical interaction between planner and worker agents via a shared policy; (b) tripartite reward system integrating global accuracy, marginal credit, and tool process rewards; (c) marginal credit mechanism isolating agents’ contr
Figure 2 : Overview of SHARP framework. The pipeline involves (a) hierarchical interaction between planner and worker agents via a shared policy; (b) tripartite reward system integrating global accuracy, marginal credit, and tool process rewards; (c) marginal credit mechanism isolating agents’ contr

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。