QUICK REVIEW

[논문 리뷰] Who Deserves the Reward? SHARP: Shapley Credit-based Optimization for Multi-Agent System

Yanming Li, Xuelin Zhang|arXiv (Cornell University)|2026. 02. 09.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

SHARP는 도구 보강 멀티에이전트 LLM 시스템에서 훈련의 안정화와 향상을 위해 Shapley 기반의 계층적 신용 귀속과 삼부분 보상 설계를 도입하여 단일 에이전트 및 기타 멀티에이전트 기준선에 비해 상당한 이점을 달성한다.

ABSTRACT

Integrating Large Language Models (LLMs) with external tools via multi-agent systems offers a promising new paradigm for decomposing and solving complex problems. However, training these systems remains notoriously difficult due to the credit assignment challenge, as it is often unclear which specific functional agent is responsible for the success or failure of decision trajectories. Existing methods typically rely on sparse or globally broadcast rewards, failing to capture individual contributions and leading to inefficient reinforcement learning. To address these limitations, we introduce the Shapley-based Hierarchical Attribution for Reinforcement Policy (SHARP), a novel framework for optimizing multi-agent reinforcement learning via precise credit attribution. SHARP effectively stabilizes training by normalizing agent-specific advantages across trajectory groups, primarily through a decomposed reward mechanism comprising a global broadcast-accuracy reward, a Shapley-based marginal-credit reward for each agent, and a tool-process reward to improve execution efficiency. Extensive experiments across various real-world benchmarks demonstrate that SHARP significantly outperforms recent state-of-the-art baselines, achieving average match improvements of 23.66% and 14.05% over single-agent and multi-agent approaches, respectively.

연구 동기 및 목표

도구-통합 MAS에서 크레딧 할당 문제를 해결한다.
전역 작업 정렬을 보장하면서 개별 에이전트 기여를 분리하는 principled 보상 분해 설계를 고안한다.
Shapley 기반의 한계 크레딧과 삼부분 보상 프레임워크를 통해 다중 에이전트 학습의 안정화와 가속을 달성한다.
다양한 벤치마크와 모델 크기에 걸친 교차 태스크 일반화 및 확장성을 시연한다.

제안 방법

SHARP를 제안한다. Shapley 기반의 계층적 귀속 프레임워크와 삼부분 보상 설계: 글로벌 브로드캐스트-정확도, 한계-크레딧(Shapley 기반) 보상, 그리고 도구-프로세스 보상.
궤적에서 에이전트를 제거하여 각 에이전트의 인과적 영향을 추정하는 반사실(masking) 기법을 사용한다.
궤적 그룹 간 에이전트별 이점을 표준화하여 저분산, 일관된 그래디언트 업데이트를 달성한다(그룹-상대 정책 그라디언트).
역할 프롬프트를 통해 단일 정책에서 플래너와 워커를 인스턴스화하는 파라미터 공유 자기학습(self-play) 설정을 채택한다.
궤적 절단을 이용한 반사실 크레딧 형식을 통한 한계 크레딧에 대한 Shapley 값 근사(credit_i,m = R_acc(τ_i) − R_acc(τ_i \backslash m)).
여러 궤적에 걸쳐 에이전트별 잘린 이점을 모으는 클리핑된 대리 목표(SHARP 목표)로 학습한다.

Figure 1 : Existing credit assignment policy for all agents (left) and the precise strategy of SHARP for each individual agent (right).

실험 결과

연구 질문

RQ1다양한 벤치마크에서 SHARP가 단일 에이전트 및 다중 에이전트 기준선에 비해 어떤 성능을 보이나?
RQ2한계 크레딧 모델링이 성능에 미치는 영향과 이익에 가장 기여하는 구성요소는 무엇인가?
RQ3작업 이질성, 모델 크기, 훈련 예산 전반에서 SHARP의 안정성 및 확장성은?
RQ4SHARP가 플래너–워커 협력 및 서브에이전트 유용성에 어떤 영향을 미치는가?

주요 결과

방법	MAS	TRN	BOR	MCR	MuSiQue	GAIA-text	WebWalkerQA	FRAMES	AVG
LLaMA-3.1-8B RAG	✗	✗	✗	✗	7.20	8.82	0.77	5.81	5.65
Qwen3-8B RAG	✗	✗	✗	✗	8.60	15.40	1.23	6.78	8.00
Plan-Search †	✗	✗	✗	✗	26.66	10.04	3.32	10.76	12.70
Plan-Search	✗	✗	✗	✗	36.35	27.48	6.77	28.48	24.77
Search-R1 ‡	✗	✓	✗	✗	18.11	14.15	2.30	11.30	11.47
Single-agent GRPO	✗	✓	✗	✗	45.93	27.97	7.47	30.20	27.89
Planner–Worker †	✓	✗	✗	✗	35.22	13.36	5.57	21.21	18.84
Planner–Worker	✓	✗	✗	✗	38.23	27.53	7.42	32.18	26.34
G-Designer	✓	✗	✗	✗	38.50	28.15	4.70	28.28	24.90
CARD	✓	✓	✗	✗	45.00	32.89	7.38	27.31	28.15
COA	✓	✓	✗	✗	44.28	32.00	7.22	32.10	28.90
AceSearcher †	✓	✓	✗	✗	36.41	20.05	7.04	27.38	22.72
MATPO	✓	✓	✗	✗	47.00	31.65	7.47	37.10	30.81
SHARP †	✓	✓	✓	✓	46.14	23.23	7.60	25.71	25.67
SHARP	✓	✓	✓	✓	50.76	33.70	8.50	37.29	32.56

SHARP는 벤치마크 전반에서 단일 에이전트 대비 평균 매칭 이득 23.66%, 다중 에이전트 대비 14.05%의 평균 성능 향상을 달성했다.
한계 크레딧 모델링이 일관되게 최상의 전체 성능을 낳아 아키텍처 및 최적화 전략을 앞선다.
SHARP는 모델 크기(예: 0.6B에서 8B 백본)에 효과적으로 확장되며, 더 큰 규모에서 더 큰 이점을 제공한다(8B 백본에서 최대 14.41 포인트).
협력 분석에서 SHARP가 플래너 점수를 개선하고 유용한 서브에이전트 비율을 늘리며 해로운 상호작용을 줄이는 것으로 나타났다.
SHARP는 교차 태스크 일반화(DocMath-Eval)와 단계에 걸친 견고하고 단조로운 훈련 개선을 보여 안정적인 최적화를 시사한다.
제거 연구는 플래너–워커 크레딧의 결합으로 시너지 효과를 보이며, 플래너 크레딧이 분해를 다듬고 워커 크레딧이 실행과 도구 사용을 개선함을 보여준다.

Figure 2 : Overview of SHARP framework. The pipeline involves (a) hierarchical interaction between planner and worker agents via a shared policy; (b) tripartite reward system integrating global accuracy, marginal credit, and tool process rewards; (c) marginal credit mechanism isolating agents’ contr

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.