QUICK REVIEW

[논문 리뷰] UPDeT: Universal Multi-agent Reinforcement Learning via Policy Decoupling with Transformers

Siyi Hu, Fengda Zhu|arXiv (Cornell University)|2021. 01. 20.

Reinforcement Learning in Robotics참고 문헌 35인용 수 32

한 줄 요약

UPDeT는 가변 입력/출력 차원을 다루고 태스크 간 빠른 전이를 가능하게 하며 RNN 기반 방법보다 우수한 성능을 보이는 다에이전트 강화학습(MARL)을 위한 보편적이고 트랜스포머 기반의 정책 분리 프레임워크를 도입합니다.

ABSTRACT

Recent advances in multi-agent reinforcement learning have been largely limited in training one model from scratch for every new task. The limitation is due to the restricted model architecture related to fixed input and output dimensions. This hinders the experience accumulation and transfer of the learned agent over tasks with diverse levels of difficulty (e.g. 3 vs 3 or 5 vs 6 multi-agent games). In this paper, we make the first attempt to explore a universal multi-agent reinforcement learning pipeline, designing one single architecture to fit tasks with the requirement of different observation and action configurations. Unlike previous RNN-based models, we utilize a transformer-based model to generate a flexible policy by decoupling the policy distribution from the intertwined input observation with an importance weight measured by the merits of the self-attention mechanism. Compared to a standard transformer block, the proposed model, named as Universal Policy Decoupling Transformer (UPDeT), further relaxes the action restriction and makes the multi-agent task's decision process more explainable. UPDeT is general enough to be plugged into any multi-agent reinforcement learning pipeline and equip them with strong generalization abilities that enables the handling of multiple tasks at a time. Extensive experiments on large-scale SMAC multi-agent competitive games demonstrate that the proposed UPDeT-based multi-agent reinforcement learning achieves significant results relative to state-of-the-art approaches, demonstrating advantageous transfer capability in terms of both performance and training speed (10 times faster).

연구 동기 및 목표

다양한 관찰(observation) 및 행동 구성에 걸쳐 작동하는 보편 MARL 아키텍처의 필요성을 동기화한다.
관측을 입력으로부터 분리하는 트랜스포머 기반의 개별 기능을 제안한다.
새로운 태스크 특화 파라미터를 추가하지 않고 일치하는 관측-엔터티를 행동-그룹으로 매핑하기 위한 정책 분리를 도입한다.
해설 가능한 설명 가능성 유지하면서 다양한 MARL 태스크 간 멀티태스크 전이 및 더 빠른 적응을 가능하게 한다.

제안 방법

관찰을 observation-entities로 표현하고 트랜스포머 기반 함수로 임베드하여 각 에이전트의 Q-값을 계산한다.
개별 Q-값에서 크레딧 어사인먼트 함수를 통해 글로벌 Q-함수를 계산한다.
자기 주의(Self-attention)를 사용하여 일치하는 관측-엔터티와 다른 관측 간의 관계를 학습하고 정책 분리(policy decoupling)을 가능하게 한다.
관측 엔티티에 매칭된 행동-그룹으로 행동을 분할하여 추가 파라미터 없이 유연한 정책 차원을 허용한다.
Dec-POMDP 설정에서 행동-관찰 이력을 처리하기 위해 글로벌 또는 개별적 시계열 단위를 도입한다.
GRU/LSTM을 트랜스포머 기반의 시간 단위로 대체하고 표준 TD 오차로 최적화한다(DQN처럼).

실험 결과

연구 질문

RQ1다양한 입력/출력 차원을 가진 MARL 태스크를 추가적인 태스크 특화 파라미터 없이 단일 아키텍처로 지원할 수 있는가?
RQ2트랜스포머를 통한 정책 분리가 표현 학습 및 여러 MARL 태스크 간 전이를 개선하는가?
RQ3UPDeT를 기존 MARL 파이프라인(VDN, QMIX, QTRAN)에 적용했을 때 성능 및 전이 속도 측면에서 어떤 효과가 있는가?
RQ4부분 관측성하에서 서로 다른 시간 단위 설계가 학습에 어떤 영향을 미치는가?
RQ5멀티에이전트 설정에서 주의 메커니즘이 정책 결정에 대한 설명 가능한 통찰을 제공할 수 있는가?

주요 결과

UPDeT는 VDN, QMIX, 또는 QTRAN과 함께 사용될 때 도전적인 SMAC 시나리오에서 RNN 기반 모델보다 현저히 우수한 성능을 보인다.
이 방법은 태스크 간 강력한 전이 능력을 가능하게 하고 학습 비용을 크게 줄이며, 보고된 전이 수렴 비용이 GRU 기반 모델보다 최소 10배 빠르고 처음부터 학습하는 것보다 100배 빠르다.
주의 기반의 정책 분리는 스타트업(Startup), 공격(Attack), 생존(Survival) 등의 전략 단계와 상관관계가 있는 주의 맵(attention maps)을 보여주며 해석 가능한 전략을 도출한다.
UPDeT는 기존 MARL 방법에 거의 구조적 변화 없이 플러그인될 수 있으며 쉬운 시나리오에서 어려운 시나리오에 이르는 전반에서 주목할 만한 성능 향상을 제공한다.
이 방법은 대규모 MAS 설정으로 확장 가능하며 다양한 태스크 규모에서 강건한 일반화 및 전이 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.