QUICK REVIEW

[논문 리뷰] Counterfactual Multi-Agent Reinforcement Learning with Graph Convolution Communication

Jianyu Su, Stephen Adams|arXiv (Cornell University)|2020. 04. 01.

Reinforcement Learning in Robotics참고 문헌 22인용 수 20

한 줄 요약

이 논문은 그래프 컨volution 통신과 반사적 책임 할당(COMA)을 통합한 다중 에이전트 강화학습 프레임워크인 CCOMA를 제안한다. 이는 타겟팅된 통신과 개별화된 보상 설계를 통해 에이전트들이 협력 정책을 학습하도록 한다. 이 방법은 동적 및 정적 다중 에이전트 환경, 예를 들어 교차로와 이질적인 제조 시스템에서 최신 기술(SOTA) 기준을 초월하며, 해석 가능한 통신 전략을 제공한다.

ABSTRACT

We consider a fully cooperative multi-agent system where agents cooperate to maximize a system's utility in a partial-observable environment. We propose that multi-agent systems must have the ability to (1) communicate and understand the inter-plays between agents and (2) correctly distribute rewards based on an individual agent's contribution. In contrast, most work in this setting considers only one of the above abilities. In this study, we develop an architecture that allows for communication among agents and tailors the system's reward for each individual agent. Our architecture represents agent communication through graph convolution and applies an existing credit assignment structure, counterfactual multi-agent policy gradient (COMA), to assist agents to learn communication by back-propagation. The flexibility of the graph structure enables our method to be applicable to a variety of multi-agent systems, e.g. dynamic systems that consist of varying numbers of agents and static systems with a fixed number of agents. We evaluate our method on a range of tasks, demonstrating the advantage of marrying communication with credit assignment. In the experiments, our proposed method yields better performance than the state-of-art methods, including COMA. Moreover, we show that the communication strategies offers us insights and interpretability of the system's cooperative policies.

연구 동기 및 목표

협력적 다중 에이전트 강화학습에서의 상호 에이전트 간 소통과 정확한 책임 할당이라는 双중 과제를 해결하기 위해.
탄력적이고 그래프 기반의 소통을 통해 에이전트 간의 상호작용을 이해할 수 있도록 하기 위해.
반사적 추론을 활용해 개별 에이전트에 맞게 보상을 조정함으로써 학습 효율성과 정책 성능을 향상시키기 위해.
변동하는 에이전트 수를 가진 동적 시스템과 고정된 에이전트를 가진 정적 시스템에서 프레임워크를 평가하기 위해.
학습 프레임워크 하에서 학습된 통신 전략이 의미 있고 해석 가능하다는 것을 입증하기 위해.

제안 방법

프레임워크는 에이전트 간 상호작용을 모델링하고 에이전트 간 타겟팅된 동적 통신을 가능하게 하기 위해 그래프 컨volution 네트워크(GCN)를 사용한다.
각 에이전트가 전체 수익에 기여한 바를 기반으로 개별화된 보상을 계산하기 위해 중심화된 크티컬과 반사적 다중 에이전트 정책 기울기(COMA)를 적용한다.
GCN은 에이전트 임베딩과 메시지 전달을 처리하여 이웃의 정보에 기반해 각 에이전트의 은닉 상태를 업데이트한다.
공동 상태와 행동을 조건으로 하는 중심화된 크티컬을 사용하여 정책 기울기로 학습을 수행함으로써 반사적 추론이 가능해진다.
통신은 백프로파게이션을 통해 엔드 투 엔드로 학습되며, 이로써 에이전트들이 누굴과 소통할지를 적응적으로 선택할 수 있다.
훈련 중에 커리큘럼 학습을 적용하여, 초기 에이전트 상태를 무작위화함으로써 환경의 복잡성을 점진적으로 증가시킨다.

실험 결과

연구 질문

RQ1변동하는 에이전트 수를 가진 다중 에이전트 시스템에서 그래프 컨볼루션 통신이 협업을 향상시키는가?
RQ2적응형 통신과 반사적 책임 할당을 결합하면 기존 방법보다 성능 향상이 이루어지는가?
RQ3책임 할당 프레임워크 하에서 에이전트들이 의미 있고 해석 가능한 통신 전략을 학습할 수 있는가?
RQ4예를 들어 초기 상태를 무작위화한 경우와 같이 환경의 복잡성이 증가할수록 이 프레임워크는 어떻게 성능을 보이는가?
RQ5정교한 조율이 필요한 이질적인 다중 에이전트 시스템으로 일반화 가능한가?

주요 결과

CCOMA는 정적 및 동적 팀 구성 모두에서 교차로 환경에서 COMA 및 기타 최신 기술(SOTA) 방법보다 높은 누적 보상을 달성하여 슈퍼어리어어를 기록했다.
제조 환경에서는 CCOMA가 COMA 및 통신 기능이 있는 IQL보다 평균 누적 수익에서 뛰어난 성능을 보이며, 복잡하고 이질적인 시스템에서의 효과성을 입증했다.
커리큘럼 학습을 통해 도입된 무작위성으로 인해 COMA와 IQL with Comm는 성능 저하를 보였지만, CCOMA는 안정적인 학습을 유지하고 결국 고성능 정책으로 수렴했다.
전달된 메시지의 분석 결과, 에이전트들이 구조적이고 작업에 관련된 통신 전략을 학습한 것으로 나타나, 의미 있는 정보 교환과 해석 가능성의 가능성을 보였다.
반사적 추론이 가능한 중심화된 크티컬은 효과적인 책임 할당을 가능하게 하여, 전체 상태 정보에 접근할 수 없는 에이전트들도 최적의 행동을 학습할 수 있도록 했다.
에이전트 수와 시스템 역학이 다양할 수 있는 환경에서 프레임워크는 강건성과 확장성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.