QUICK REVIEW

[논문 리뷰] Factored Value Functions for Graph-Based Multi-Agent Reinforcement Learning

Ahmed Rashwan, Keith Briggs|arXiv (Cornell University)|2026. 01. 16.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

그래프 기반 MARL을 위한 팩터화된 크리틱인 Diffusion Value Function (DVF)를 도입하고, 확장 가능하고 분산 학습이 가능한 DA2C 및 LD-GNN을 구축해 통신 인식 정책을 가능하게 한다; 화재 진압 및 분산 계산 작업에서 성능이 향상됨을 보인다.

ABSTRACT

Credit assignment is a core challenge in multi-agent reinforcement learning (MARL), especially in large-scale systems with structured, local interactions. Graph-based Markov decision processes (GMDPs) capture such settings via an influence graph, but standard critics are poorly aligned with this structure: global value functions provide weak per-agent learning signals, while existing local constructions can be difficult to estimate and ill-behaved in infinite-horizon settings. We introduce the Diffusion Value Function (DVF), a factored value function for GMDPs that assigns to each agent a value component by diffusing rewards over the influence graph with temporal discounting and spatial attenuation. We show that DVF is well-defined, admits a Bellman fixed point, and decomposes the global discounted value via an averaging property. DVF can be used as a drop-in critic in standard RL algorithms and estimated scalably with graph neural networks. Building on DVF, we propose Diffusion A2C (DA2C) and a sparse message-passing actor, Learned DropEdge GNN (LD-GNN), for learning decentralised algorithms under communication costs. Across the firefighting benchmark and three distributed computation tasks (vector graph colouring and two transmit power optimisation problems), DA2C consistently outperforms local and global critic baselines, improving average reward by up to 11%.

연구 동기 및 목표

그래프로 표현된 로컬 상호 작용을 가진 대규모 MARL에서 크레딧 할당 문제를 다룬다.
시간 차 할인과 공간 감쇠로 보상이 영향 그래프에 확산되는 팩터화된 가치 함수를 제안한다.
표준 RL 알고리즘과 함께 바로 사용할 수 있는 드롭인 크리틱과 그래프 신경망을 통한 확장 가능한 추정을 제공한다.
통신 비용하에서 분산 학습을 위한 확산 기반 알고리즘(DA2C)과 희소 메시지 전달 액터(LD-GNN)를 개발한다.

제안 방법

DVF를 시간적 할인과 공간적 감쇠를 갖는 영향 그래프에 보상을 확산시켜 도출된 에이전트별 가치 구성 요소로 정의한다.
DVF가 잘 정의되고 Bellman 고정점이 존재하며 평균화 특성을 통해 전역 할인 가치로 분해됨을 증명한다.
DVF를 표준 RL 알고리즘의 드롭인 크리틱으로 사용하고 그래프 신경망으로 추정한다.
통신 제약 하에서 분산 학습을 가능하게 하는 Diffusion A2C (DA2C)와 Learned DropEdge GNN (LD-GNN)을 도입한다.

실험 결과

연구 질문

RQ1영향 그래프에 걸쳐 보상을 확산시켜 구성된 팩터화된 가치 함수가 각 에이전트에 대해 글로벌 크리틱이나 단순한 로컬 크리틱보다 더 나은 학습 신호를 제공할 수 있는가?
RQ2Diffusion Value Function이 잘 정의되어 있고 Bellman 고정점이 있으며 전역 값을 평균화 방식으로 분해하는가?
RQ3확산 기반 크리틱의 성능은 표준 RL 설정 및 분산 학습자가 사용하는 통신 비용 하에서 어떠한가?
RQ4그래프 구조를 갖는 MARL 태스크에서 DA2C와 LD-GNN이 기본선 대비 성능을 향상시키는가?

주요 결과

DVF는 영향 그래프에서 보상을 확산시키고 시간적 할인 및 공간 감쇠를 통해 에이전트별 가치 구성 요소를 제공한다.
DVF는 잘 정의되며 Bellman 고정점을 허용하고 평균화 특성을 통해 전역 할인 값을 분해한다.
DA2C와 LD-GNN은 DVF를 크리틱으로 사용하면서 통신 인식 정책을 갖춘 확장 가능하고 분산된 학습을 가능하게 한다.
태스크 전반(소방 작전 벤치마크 및 분산 계산 문제)에서 DA2C는 로컬 및 글로벌 크리틱 기준선보다 일관되게 우수하며 평균 보상 증가가 최대 11%에 이른다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.