QUICK REVIEW

[논문 리뷰] The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games

Chao Yu, Akash Velu|arXiv (Cornell University)|2021. 03. 02.

Reinforcement Learning in Robotics인용 수 587

한 줄 요약

PPO 기반 방법은 최소 튜닝과 도메인 특화 변경 없이, 다중 협력 MARL 벤치마크에서 최첨단과 경쟁력 있는 결과를 달성하며, 다중 에이전트 설정에서 PPO가 샘플 효율이 낮다는 믿음에 도전합니다.

ABSTRACT

Proximal Policy Optimization (PPO) is a ubiquitous on-policy reinforcement learning algorithm but is significantly less utilized than off-policy learning algorithms in multi-agent settings. This is often due to the belief that PPO is significantly less sample efficient than off-policy methods in multi-agent systems. In this work, we carefully study the performance of PPO in cooperative multi-agent settings. We show that PPO-based multi-agent algorithms achieve surprisingly strong performance in four popular multi-agent testbeds: the particle-world environments, the StarCraft multi-agent challenge, Google Research Football, and the Hanabi challenge, with minimal hyperparameter tuning and without any domain-specific algorithmic modifications or architectures. Importantly, compared to competitive off-policy methods, PPO often achieves competitive or superior results in both final returns and sample efficiency. Finally, through ablation studies, we analyze implementation and hyperparameter factors that are critical to PPO's empirical performance, and give concrete practical suggestions regarding these factors. Our results show that when using these practices, simple PPO-based methods can be a strong baseline in cooperative multi-agent reinforcement learning. Source code is released at \url{https://github.com/marlbenchmark/on-policy}.

연구 동기 및 목표

협력적 다중 에이전트 강화학습(MARL) 설정에서 PPO를 재평가하도록 동기를 부여합니다.
여러 MARL 벤치마크에서 강력한 오프폴리시 벤치마크와 대조하여 PPO 기반 방법(MAPPO 및 IPPO)을 평가합니다.
MARL에서 PPO 성능을 좌우하는 핵심 구현 및 하이퍼파라미터 요소를 식별하고 실용적인 튜닝 가이드를 제공합니다.

제안 방법

PPO를 다중 에이전트 설정에 맞게 MAPPO(중앙집중형 가치 함수 입력) 및 IPPO(독립 에이전트)로 적응시킵니다.
동질 에이전트의 매개변수 공유를 사용하여 학습 효율을 향상시킵니다.
장점 정규화 및 가치 클리핑이 포함된 일반화된 이점 추정(GAE)을 적용합니다.
가치 함수 입력, 가치 정규화, 학습 데이터 사용, 클리핑, 배치 크기를 중요한 요인으로 조사합니다.
네 가지 환경에서 오프폴리시 베이스라인(QMix, MADDPG, RODE 등)과 벤치마킹합니다.
Marl Benchmark on-policy 저장소에 소스 코드를 공개합니다.

실험 결과

연구 질문

RQ1다양한 협력 벤치마크에서 PPO 기반 방법이 오프폴리시 MARL 베이스라인과 경쟁력 있거나 더 우수한 성능을 달성할 수 있습니까?
RQ2PPO 성능에 가장 큰 영향을 미치는 구현 선택 및 하이퍼파라미터는 무엇입니까?
RQ3다중 에이전트 협력에서 중앙집중식 가치 함수 입력(MAPPO)이 독립적인 PPO(IPPO)보다 이점을 제공합니까?
RQ4MARL에 대해 PPO를 효과적으로 튜닝하기 위해 어떤 실용적인 가이드를 도출할 수 있습니까?
RQ5에이전트 동질성 및 관찰 구조가 다른 다양한 환경에 대해 PPO 기반 방법이 견고합니까?

주요 결과

MAPPO 및 IPPO는 MPE, SMAC, GRF, Hanabi에서 오프폴리시 베이스라인과의 최종 성능이 경쟁력이 있거나 더 우수하고 샘플 효율도 유사합니다.
중앙집중식 가치를 입력으로 하는 MAPPO는 여러 SMAC 맵에서 RODE 및 다른 오프폴리시 방법과 종종 일치하거나 이를 능가합니다.
동일한 학습 예산하에서 Google Football 시나리오에서 MAPPO가 QMix를 능가합니다.
다섯 가지 실용적 요인(가치 정규화, 가치 함수 입력, 학습 데이터 사용, 정책/가치 클리핑, 배치 크기)이 MARL에서 PPO 성능에 강하게 영향을 미치며 명확한 모범 사례 지침을 제공합니다.
가치 정규화는 가치 학습을 안정시키고 여러 벤치마크에서 최종 성능을 향상시킵니다.
로컬 관찰과 글로벌 상태를 결합한 중앙집중식 가치 입력(AS/FP)은 일반적으로 순전히 연결된 로컬 관찰이나 순수하게 환경에서 제공되는 글로벌보다 일반적으로 더 뛰어납니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.