[논문 리뷰] Multi-Agent Reinforcement Learning is a Sequence Modeling Problem
이 논문은 협력적 MARL을 시퀀스 모델링으로 바꾸는 Multi-Agent Transformer(MAT)을 제안하고, 온-policy 학습과 단조로운 개선 및 선형 시간 업데이트를 가능하게 한다. MAT는 다수의 MARL 벤치마크에서 최첨단 성능과 강한 일반화을 보여준다.
Large sequence model (SM) such as GPT series and BERT has displayed outstanding performance and generalization capabilities on vision, language, and recently reinforcement learning tasks. A natural follow-up question is how to abstract multi-agent decision making into an SM problem and benefit from the prosperous development of SMs. In this paper, we introduce a novel architecture named Multi-Agent Transformer (MAT) that effectively casts cooperative multi-agent reinforcement learning (MARL) into SM problems wherein the task is to map agents' observation sequence to agents' optimal action sequence. Our goal is to build the bridge between MARL and SMs so that the modeling power of modern sequence models can be unleashed for MARL. Central to our MAT is an encoder-decoder architecture which leverages the multi-agent advantage decomposition theorem to transform the joint policy search problem into a sequential decision making process; this renders only linear time complexity for multi-agent problems and, most importantly, endows MAT with monotonic performance improvement guarantee. Unlike prior arts such as Decision Transformer fit only pre-collected offline data, MAT is trained by online trials and errors from the environment in an on-policy fashion. To validate MAT, we conduct extensive experiments on StarCraftII, Multi-Agent MuJoCo, Dexterous Hands Manipulation, and Google Research Football benchmarks. Results demonstrate that MAT achieves superior performance and data efficiency compared to strong baselines including MAPPO and HAPPO. Furthermore, we demonstrate that MAT is an excellent few-short learner on unseen tasks regardless of changes in the number of agents. See our project page at https://sites.google.com/view/multi-agent-transformer.
연구 동기 및 목표
- 협력적 MARL을 시퀀스 모델링과 연결하여 현대 시퀀스 모델의 이점을 활용한다.
- 조합 정책 탐색을 증분 순차 결정 프로세스로 변환하여 복잡도를 선형적으로 증가시키지 않는다.
- 단조로운 성능 개선을 보장하는 온라인, 온-policy 학습 패러다임을 제공한다.
- 다양한 MARL 벤치마크에서 MAT의 우수성 및 일반화를 입증한다.
제안 방법
- MAT 도입: 엔코더-디코더 구조를 가진다.
- 엔코더를 사용해 에이전트 관측 시퀀스를 잠재 표현으로 매핑.
- 마스크된 어텐션을 갖는 디코더를 사용해 앞선 에이전트의 조건부로 순차적으로 에이전트의 행동을 생성.
- 공동 최적화를 위한 PPO 스타일의 클리핑된 목표와 GAE 유사 이점을 사용.
- 비 centralized baseline으로 비교를 위한 CTDE-변형(MAT-Dec) 제공.
- 다중에이전트 어드밴티지 분해 정리에 의해 단조로운 개선 보장을 시연.
실험 결과
연구 질문
- RQ1인코더-디코더 아키텍처를 사용하여 협력적 MARL 문제를 시퀀스 모델링 문제로 효과적으로 모델링할 수 있는가?
- RQ2Transformer 기반 MAT가 강력한 baseline 대비 표준 MARL 벤치마크에서 우수한 성능과 데이터 효율을 달성하는가?
- RQ3MAT가 보지 못한 작업 및 다른 수의 에이전트(적은 샷/제로 샷 설정)에 일반화할 수 있는가?
주요 결과
| 과제 | 난이도 | MAT | MAT-Dec | MAPPO | HAPPO | QMIX | UPDeT | 단계 |
|---|---|---|---|---|---|---|---|---|
| 3m | Easy | 100.0 (1.8) | 100.0 (1.1) | 100.0 (0.4) | 100.0 (1.2) | 96.9 1.3 | 100.0 (5.2) | 5e5 |
| 8m | Easy | 100.0 (1.1) | 97.5 (2.5) | 96.8 (2.9) | 97.5 (1.1) | 97.7 1.9 | 96.3 (9.7) | 1e6 |
| 1c3s5z | Easy | 100.0 (2.4) | 100.0 (0.4) | 100.0 (2.2) | 97.5 (1.8) | 96.9 (1.5) | / | 2e6 |
| MMM | Easy | 100.0 (2.2) | 98.1 (2.1) | 95.6 (4.5) | 81.2 (22.9) | 91.2 (3.2) | / | 2e6 |
| 2c vs 64zg | Hard | 100.0 (1.3) | 95.9 (2.3) | 100.0 (2.7) | 90.0 (4.8) | 90.3 (4.0) | / | 5e6 |
| 3s vs 5z | Hard | 100.0 (1.7) | 100.0 (1.3) | 100.0 (2.5) | 91.9 (5.3) | 92.3 (4.4) | / | 5e6 |
| 3s5z | Hard | 100.0 (1.9) | 100.0 (3.3) | 72.5 (26.5) | 90.0 (3.5) | 84.3 (5.4) | / | 3e6 |
| 5m vs 6m | Hard | 90.6 (4.4) | 83.1 (4.6) | 88.2 (6.2) | 73.8 (4.4) | 75.8 (3.7) | 90.6 (6.1) | 1e7 |
| 8m vs 9m | Hard | 100.0 (3.1) | 95.0 (4.6) | 93.8 (3.5) | 86.2 (4.4) | 92.6 (4.0) | / | 5e6 |
| 10m vs 11m | Hard | 100.0 (1.4) | 100.0 (2.0) | 96.3 (5.8) | 77.5 (9.7) | 95.8 (6.1) | / | 5e6 |
| 25m | Hard | 100.0 (1.3) | 86.9 (5.6) | 100.0 (2.7) | 0.6 (0.8) | 90.2 (9.8) | 2.8 (3.1) | 2e6 |
| 27m vs 30m | Hard+ | 100.0 (0.7) | 95.3 (2.2) | 93.1 (3.2) | 0.0 (0.0) | 39.2 (8.8) | / | 1e7 |
| MMM2 | Hard+ | 93.8 (2.6) | 91.2 (5.3) | 81.8 (10.1) | 0.3 (0.4) | 88.3 (2.4) | / | 1e7 |
| 6h vs 8z | Hard+ | 98.8 (1.3) | 93.8 (4.7) | 88.4 (5.7) | 0.0 (0.0) | 9.7 (3.1) | / | 1e7 |
| 3s5z vs 3s6z | Hard+ | 96.5 (1.3) | 85.3 (7.5) | 84.3 (19.4) | 82.8 (21.2) | 68.8 (21.2) | / | 2e7 |
| 3s6z | Hard+ | ? | ? | ? | ? | ? | / | 2e7 |
| 5m vs 6m | Hard | 90.6 (4.4) | 83.1 (4.6) | 88.2 (6.2) | 73.8 (4.4) | 75.8 (3.7) | 90.6 (6.1) | 1e7 |
- MAT가 MAPPO, HAPPO, QMIX, UPDeT에 비해 여러 MARL 벤치마크에서 우수한 성능 및 데이터 효율을 달성한다.
- MAT가 순차적 업데이트를 활용하여 병렬 학습을 가능하게 하면서도 단조로운 개선 보장을 유지한다.
- 다른 에이전트 수 및 실패 모드가 있는 작업에 대해 충분한 샷 및 제로샷 일반화를 보인다.
- 디코더로 완전한 병렬 학습 주기를 가능하게 하여 엄격히 순차적인 방법보다 학습 속도를 높인다.
- CTDE-변형(MAT-Dec)이 MAT 디코더의 성능 향상에 중요함을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.