QUICK REVIEW

[논문 리뷰] Hierarchical Cooperative Multi-Agent Reinforcement Learning with Skill Discovery

Jiachen Yang, Igor Borovikov|arXiv (Cornell University)|2019. 12. 07.

Sports Analytics and Performance인용 수 28

한 줄 요약

이 논문은 저수준에서 내재 보상 기반 학습을 통해 구분되며 해석 가능한 스킬을 발견하고, 고수준에서 외재 팀 보상에 기반한 중심집중식 정책 학습을 수행하는 계층적 협동 다에이전트 강화학습 프레임워크를 제안한다. 이 방법은 확장 가능한 분산 실행을 가능하게 하며, 확률적 팀 스포츠 환경에서 뛰어난 팀 성능을 달성하고, 스킬 별 수동 보상 없이도 기대되는, 해독 가능한 스킬을 통해 효과적인 인간-AI 협업을 지원한다.

ABSTRACT

Human players in professional team sports achieve high level coordination by dynamically choosing complementary skills and executing primitive actions to perform these skills. As a step toward creating intelligent agents with this capability for fully cooperative multi-agent settings, we propose a two-level hierarchical multi-agent reinforcement learning (MARL) algorithm with unsupervised skill discovery. Agents learn useful and distinct skills at the low level via independent Q-learning, while they learn to select complementary latent skill variables at the high level via centralized multi-agent training with an extrinsic team reward. The set of low-level skills emerges from an intrinsic reward that solely promotes the decodability of latent skill variables from the trajectory of a low-level skill, without the need for hand-crafted rewards for each skill. For scalable decentralized execution, each agent independently chooses latent skill variables and primitive actions based on local observations. Our overall method enables the use of general cooperative MARL algorithms for training high level policies and single-agent RL for training low level skills. Experiments on a stochastic high dimensional team game show the emergence of useful skills and cooperative team play. The interpretability of the learned skills show the promise of the proposed method for achieving human-AI cooperation in team sports games.

연구 동기 및 목표

확장 가능한 분산 실행과 중심집중적 훈련을 통해 완전히 협동적인 다에이전트 강화학습을 가능하게 한다.
각 스킬 별 수동 보상 없이도 유용하고 구분되며 해석 가능한 스킬을 발견한다.
고수준 스킬 선택과 저수준 기본 동작 실행을 통해 동적이고 조율된 팀 플레이를 지원한다.
해석 가능하고 모oduляр한 정책을 통해 팀 스포츠 게임에서 인간-AI 협업을 촉진한다.
고차원적이고 확률적인 다에이전트 환경에서 장기적 보상 할당과 샘플 복잡도 문제를 해결한다.

제안 방법

저수준 정책은 궤도에서 잠재 스킬 변수의 해독 가능성을 증진하는 동적 가중 내재 보상과 함께 Q-학습을 통해 독립적으로 훈련된다.
고수준 정책은 다에이전트 강화학습(예: QMIX)을 사용하여 팀 수준의 외재 보상에 기반해 상호보완적인 잠재 스킬 변수를 선택하도록 중심집중적으로 훈련된다.
내재 보상은 잠재 스킬 변수와 관측된 궤도 간의 상호정보량을 최대화하도록 설계되어 비지도 스킬 발견을 가능하게 한다.
성능 임계값과 단계 크기에 따라 내재 보상과 외재 보상의 균형을 조정하는 커리큘럼 학습 메커니즘을 사용한다.
각 에이전트는 현지 관측에 기반해 고수준 스킬과 저수준 동작을 선택함으로써 확장 가능한 분산 실행을 가능하게 한다.
고수준 협동 정책 학습과 저수준 스킬 학습을 분리함으로써 고수준에서 표준 MARL 알고리즘과 저수준에서 단일 에이전트 RL을 사용할 수 있도록 한다.

실험 결과

연구 질문

RQ1계층적 MARL 프레임워크는 각 스킬 별 수동 보상 없이도 유용하고 구분되며 해석 가능한 스킬을 발견할 수 있는가?
RQ2팀 보상에 기반한 고수준 정책의 중심집중적 훈련은 확률적이고 고차원적인 환경에서 효과적이고 협동적인 팀 전략을 이끌 수 있는가?
RQ3스킬 해독 가능성에 기반한 내재 보상은 다에이전트 환경에서 안정적이고 의미 있는 스킬의 기원을 가능하게 하는가?
RQ4제안된 방법은 인간 플레이어나 스크립트된 보트와 같은 훈련되지 않은 동료와의 임시 협업 상황에서 어떻게 성능을 발휘하는가?
RQ5계층적 프레임워크에서 스킬 발견과 팀 성능에 가장 크게 영향을 미치는 하이퍼파라미터는 무엇인가?

주요 결과

HSD는 QMIX와 IQL보다 팀 승률에서 뛰어난 성능을 보였으며, 두 명의 스크립트된 동료와 함께 52%의 승률을 기록했고, 스크립트된 동료가 없을 경우 46%의 승률을 기록하여 임시 환경에서의 강건성을 입증했다.
한 에이전트가 항상 수비 또는 공격 스킬을 수행하도록 고정된 경우에도 성능이 안정적으로 유지되었으며, 오차 범위 내에서 성능을 유지했다.
α_threshold 값이 클수록(예: 0.6) 성능이 높고 분산이 적었으며, 작은 값은 조기 보상 재균형으로 인해 불안정성을 유발했다.
α_step 값이 작을수록 학습 안정성과 성능이 향상되었으며, 작은 보상 조정은 부드러운 커리큘럼 진행을 가능하게 했다.
10단계 또는 20단계 동안 스킬을 유지하는 에이전트가 매 5단계마다 스킬을 전환하는 에이전트보다 성능이 뛰어났으며, 더 긴 스킬 지속 시간이 정책 학습에 유리함을 시사했다.
기대되는 스킬은 정량적으로 구분되며 해석 가능했으며, 에이전트 궤도에서 해독 가능한 명확한 행동 패턴을 보였고, 이는 인간-AI 협업을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.