[논문 리뷰] Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning
이 논문은 단조로운 개선 보장을 갖는 이론적 프레임워크를 도입하고 파라미터 공유 없이 이질적 에이전트를 처리하는 HATRPO 및 HAPPO 알고리즘을 제안함으로써 협력적 다-에이전트 강화학습에 트러스트 리전 학습을 확장한다.
Trust region methods rigorously enabled reinforcement learning (RL) agents to learn monotonically improving policies, leading to superior performance on a variety of tasks. Unfortunately, when it comes to multi-agent reinforcement learning (MARL), the property of monotonic improvement may not simply apply; this is because agents, even in cooperative games, could have conflicting directions of policy updates. As a result, achieving a guaranteed improvement on the joint policy where each agent acts individually remains an open challenge. In this paper, we extend the theory of trust region learning to MARL. Central to our findings are the multi-agent advantage decomposition lemma and the sequential policy update scheme. Based on these, we develop Heterogeneous-Agent Trust Region Policy Optimisation (HATPRO) and Heterogeneous-Agent Proximal Policy Optimisation (HAPPO) algorithms. Unlike many existing MARL algorithms, HATRPO/HAPPO do not need agents to share parameters, nor do they need any restrictive assumptions on decomposibility of the joint value function. Most importantly, we justify in theory the monotonic improvement property of HATRPO/HAPPO. We evaluate the proposed methods on a series of Multi-Agent MuJoCo and StarCraftII tasks. Results show that HATRPO and HAPPO significantly outperform strong baselines such as IPPO, MAPPO and MADDPG on all tested tasks, therefore establishing a new state of the art.
연구 동기 및 목표
- 에이전트 간 정책 업데이트가 서로 충돌할 수 있는 다중 에이전트 환경으로 트러스트 리전 방법의 확장을 동기화한다.
- 협력적 MARL에서 공동 정책의 단조로운 개선을 보장하는 이론을 개발한다.
- 동일 에이전트의 필요성이나 공동 가치 함수 분해 가능성에 의존하지 않는 실용적 순차 업데이트 체계와 알고리즘을 도입한다.
- MARL 벤치마크에서 최첨단 성능을 보이는 이론적 보장과 실험적 검증을 제공한다.
제안 방법
- 다중 에이전트 이점 분해 보조 정리에 의한 단조로운 개선을 갖춘 다중 에이전트 정책 반복을 제시한다.
- 공동 개선을 보장하는 순차적 에이전트별 정책 업데이트를 제안한다( 알고리즘 1 ).
- 이론적 결과를 도출한다: 단조로운 개선(Theorem 2) 및 내쉬 균형으로의 수렴(Theorem 3)을 도출한다.
- 실용적인 알고리즘 HATRPO와 HAPPO를 도입하여 순차 업데이트를 구현하고 계산 가능한 KL 제약을 적용한다.
- 각 에이전트에 대해 중앙 집중식 비평가 없이 업데이트를 계산하기 위해 공동 이점 추정기를 사용한다(제안 2).
- 성능을 유지하면서 계산 부담을 줄이기 위한 PPO 스타일 클리핑 변형(HAPPO)을 제공한다.
실험 결과
연구 질문
- RQ1이질적인 에이전트를 가진 협력적 MARL에 트러스트 리전 이론을 어떻게 확장할 수 있는가?
- RQ2MARL에서 공동 정책의 단조로운 개선을 순차적 에이전트별 업데이트 체계가 보장할 수 있는가?
- RQ3그런 체계의 이론적 수렴 특성은 무엇이며, 실제로 어떻게 효율적으로 구현할 수 있는가?
- RQ4이질적 에이전트 TRPO/PPO 알고리즘이 공유 파라미터 없이 MARL 벤치마크에서 최첨단 성능을 달성하는가?
- RQ5공동 이점 추정기를 활용하여 중앙집중식 비평가를 피하면서 안정적인 업데이트를 가능하게 하는 방법은?
주요 결과
- 협력적 MARL에 대해 단조로운 개선 보장을 갖는 다중 에이전트 트러스트 리전 학습을 도입한다.
- 수 sequential updates를 보장하는 다중 에이전트 이점 분해를 증명하여 개선을 보장한다(Theorem 2).
- 무작위 업데이트 순서에서 내쉬 균형으로의 수렴을 보인다(Theorem 3).
- 매개변수 공유를 필요로 하지 않으며 공동 Q-함수 분해 가능성을 가정하지 않는 HATRPO 및 HAPPO를 제시한다.
- MADDPG, IPPO, MAPPO 벤치마크 대비 StarCraftII 및 Multi-Agent MuJoCo에서 최첨단 성능을 입증한다.
- 여러 중앙 집중식 비평가를 피하기 위해 공동 이점 추정기를 활용한 실용적이고 확장 가능한 접근법을 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.