QUICK REVIEW

[논문 리뷰] ROMA: Multi-Agent Reinforcement Learning with Emergent Roles

Tonghan Wang, Heng Dong|arXiv (Cornell University)|2020. 03. 18.

Reinforcement Learning in Robotics참고 문헌 59인용 수 32

한 줄 요약

tldr: ROMA 는 MARL에서 출현하는 역할 조건화 정책을 도입하고, 식별성(identifiability)과 전문화(specialization) 규제를 사용하여 동적 분업을 가능하게 하며 StarCraft II 마이크로 매니지먼트 벤치마크에서 성능을 향상시킵니다.

ABSTRACT

The role concept provides a useful tool to design and understand complex multi-agent systems, which allows agents with a similar role to share similar behaviors. However, existing role-based methods use prior domain knowledge and predefine role structures and behaviors. In contrast, multi-agent reinforcement learning (MARL) provides flexibility and adaptability, but less efficiency in complex tasks. In this paper, we synergize these two paradigms and propose a role-oriented MARL framework (ROMA). In this framework, roles are emergent, and agents with similar roles tend to share their learning and to be specialized on certain sub-tasks. To this end, we construct a stochastic role embedding space by introducing two novel regularizers and conditioning individual policies on roles. Experiments show that our method can learn specialized, dynamic, and identifiable roles, which help our method push forward the state of the art on the StarCraft II micromanagement benchmark. Demonstrative videos are available at https://sites.google.com/view/romarl/.

연구 동기 및 목표

복잡한 작업에서 학습 효율성을 향상시키기 위해 MARL에 역할 개념을 통합하는 것을 촉진한다.
에이전트 간에 동적이고 식별 가능하며 전문화된 출현하는 역할의 출현을 가능하게 한다.
해석 가능한 최적화를 갖춘 역할 조건부 정책에 대한 메커니즘을 개발한다.

제안 방법

로컬 관찰에 조건부로 학습 가능한 가우시안에서 각 에이전트의 역할이 뽑히는 확률적 역할 임베딩 공간을 도입한다.
역할 인코더를 사용하여 역할 매개변수를 생성하고 (하이퍼 네트워크)인 역할 디코더를 사용하여 정책 매개변수를 생성한다.
두 가지 정규화 항을 부과한다: 변분 상호정보를 기반으로 한 식별 가능한 역할 목표와 변분 경계로 비유사성 모형을 사용하는 전문화된 역할 목표.
QMIX 스타일 믹싱 네트워크를 사용하여 전역 가치를 계산하는 중앙 집중형 학습과 분산 실행을 채택한다.
람다_I와 람다_D로 가중치된 정규화 항과 함께 TD 손실로 전체 목적함수를 최적화한다.
StarCraft II 맵에서 시각화와 ablation 분석을 통해 역할의 출현과 전문화를 시연한다.

실험 결과

연구 질문

RQ1학습된 역할이 변화하는 환경에 동적으로 적응할 수 있는가?
RQ2학습된 역할이 하위 작업 전문화를 이끌어 비슷한 역할이 유사한 정책을 공유하는가?
RQ3하위 작업 전문화가 도전적 벤치마크에서 MARL 성능을 향상시키는가?
RQ4학습 중에 역할이 어떻게 출현하고 진화하는지, 그리고 팀 성과와 어떤 관련이 있는가?
RQ5비유사성 모형이 의미 있는 궤적 기반의 역할 구분을 학습할 수 있는가?

주요 결과

ROMA는 하위 작업으로 군집화되고 적의 구성과 에이전트 체력에 따라 적응하는 동적 역할 표현을 학습한다.
전문화 규제는 성능을 향상시키고 기준치보다 더 효율적인 분업으로 이어진다.
ROMA는 이기종 및 동종 에이전트 설정을 포함한 다수의 StarCraft II SMAC 맵에서 기준치를 능가한다.
역할 임베딩은 학습 과정에서 형성 구도 형성 및 보호적 기동과 같은 해석 가능한 하위 작업을 드러낸다.
비유사성 모형 d_phi가 에이전트 간 궤적 기반 차이를 포착하여 높은 비유사성을 서로 다른 유닛 타입과 일치시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.