QUICK REVIEW

[논문 리뷰] RODE: Learning Roles to Decompose Multi-Agent Tasks

Tonghan Wang, Tarun Gupta|arXiv (Cornell University)|2020. 10. 04.

Reinforcement Learning in Robotics참고 문헌 98인용 수 60

한 줄 요약

RODE는 행동의 효과를 기반으로 행동을 클러스터링하여 역할을 자동으로 발견하고, 다중 에이전트 작업을 더 작고 전달 가능한 하위 작업으로 분해하는 이층 학습 프레임워크를 생성합니다.

ABSTRACT

Role-based learning holds the promise of achieving scalable multi-agent learning by decomposing complex tasks using roles. However, it is largely unclear how to efficiently discover such a set of roles. To solve this problem, we propose to first decompose joint action spaces into restricted role action spaces by clustering actions according to their effects on the environment and other agents. Learning a role selector based on action effects makes role discovery much easier because it forms a bi-level learning hierarchy -- the role selector searches in a smaller role space and at a lower temporal resolution, while role policies learn in significantly reduced primitive action-observation spaces. We further integrate information about action effects into the role policies to boost learning efficiency and policy generalization. By virtue of these advances, our method (1) outperforms the current state-of-the-art MARL algorithms on 10 of the 14 scenarios that comprise the challenging StarCraft II micromanagement benchmark and (2) achieves rapid transfer to new environments with three times the number of agents. Demonstrative videos are available at https://sites.google.com/view/rode-marl .

연구 동기 및 목표

확장 가능한 다중 에이전트 학습을 역할 기반 분해를 통해 동기부여한다.
핸드메이드 설계 없이 효과적인 역할 집합을 자동으로 발견한다.
액션 효과를 통한 팩터링으로 공동 액션 공간의 학습 복잡성을 감소시킨다.
다른 수의 에이전트/액션이 있는 환경으로 학습된 정책의 빠른 이전을 가능하게 한다.

제안 방법

전방 예측 모델을 사용하여 관찰 및 보상에 대한 액션 효과를 인코딩하는 액션 표현을 학습한다.
표현 공간에서 액션을 클러스터링하여 제한된 역할 액션 공간을 형성한다.
고수준의 역할 선택자와 제한된 액션 공간에서 작동하는 역할 정책의 이층 계층을 도입한다.
역할 선택을 알리기 위해 액션 표현의 평균으로 역할 표현을 계산한다.
QMIX 스타일의 결합 네트워크로 역할 정책과 역할 선택기를 학습하여 공동 보상을 최적화한다.
글로벌 보상을 활용하여 역할 선택자와 역할 정책 모두에 대해 TD 손실로 엔드 투 엔드 학습을 수행한다.

실험 결과

연구 질문

RQ1액션 효과 기반 표현이 역할 기반 분해를 위한 액션을 효과적으로 클러스터링할 수 있는가?
RQ2역할 액션 공간을 제한하는 것이 대규모 다중 에이전트 환경에서 학습 효율성 및 정책 성능을 향상시키는가?
RQ3RODE가 다른 수의 에이전트나 액션이 있는 작업으로 학습된 정책을 이전할 수 있는가?
RQ4각 구성 요소(액션 표현, 제한된 액션 공간, 계층적 학습)가 전체 성능에 기여하는 바는 무엇인가?
RQ5RODE가 StarCraft II 마이크로매니지먼트와 같은 도전적인 다중 에이전트 벤치마크에서 얼마나 잘 작동하는가?

주요 결과

RODE는 StarCraft II 마이크로매니지먼트의 14개 맵 중 10개에서 최첨단 성능을 달성하며, 그 중 9개 하드 및 슈퍼 하드 맵을 포함한다.
RODE는 학습 설정보다 세 배 더 많은 에이전트가 있는 환경으로의 빠른 이전을 보여준다.
액션 표현은 기능적 유사성에 해당하는 액션 클러스터를 효과적으로 드러낸다(예: 적을 향해 가거나 멀어지는 것, 유닛 유형이 비슷한 경우 공격하는 것).
Abort/제한된 역할 액션 공간 및 액션 효과 정보를 사용하는 것이 벤치마크 대비 이익을 얻는 데 중요하며, 전체 액션 공간이나 무작위 제한은 유사한 이점을 제공하지 않는다.
RODE의 계층적 설계(역할 선택자 및 역할 정책)와 효과 기반 액션 팩터링을 결합하면 확장 가능한 학습 프레임워크를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.