QUICK REVIEW

[논문 리뷰] Mastering Complex Control in MOBA Games with Deep Reinforcement Learning

Deheng Ye, Zhao Liu|arXiv (Cornell University)|2019. 12. 20.

Reinforcement Learning in Robotics참고 문헌 22인용 수 25

한 줄 요약

이 논문은 1v1 MOBA 게임인 환경의 훌륭한 전략 게임에서 복잡한 액션 제어를 습득할 수 있도록 하는 딥 강화학습 프레임워크를 제시한다. 확장 가능한 오프-폴리시 훈련 시스템과 알고리즘 혁신(제어 종속성 분리, 액션 마스킹, 대상 주의, 이중 클리핑 PPO 포함)을 조합함으로써, 에이전트는 초인적 성능을 달성하여 다양한 영웅 유형에 대해 최고의 전문 인간 플레이어를 압도한다.

ABSTRACT

We study the reinforcement learning problem of complex action control in the Multi-player Online Battle Arena (MOBA) 1v1 games. This problem involves far more complicated state and action spaces than those of traditional 1v1 games, such as Go and Atari series, which makes it very difficult to search any policies with human-level performance. In this paper, we present a deep reinforcement learning framework to tackle this problem from the perspectives of both system and algorithm. Our system is of low coupling and high scalability, which enables efficient explorations at large scale. Our algorithm includes several novel strategies, including control dependency decoupling, action mask, target attention, and dual-clip PPO, with which our proposed actor-critic network can be effectively trained in our system. Tested on the MOBA game Honor of Kings, our AI agent, called Tencent Solo, can defeat top professional human players in full 1v1 games.

연구 동기 및 목표

MOBA 1v1 게임에서 상태 공간과 액션 공간의 극도로 복잡한 특성으로 인해 체스나 아케이드 게임을 훨씬 초월하는 복잡성을 다루기 위해.
다중 에이전트 경쟁 환경에서 대규모 오프-폴리시 훈련이 가능한 확장 가능하고 낮은 결합도를 지닌 딥 강화학습 시스템을 개발하기 위해.
인간의 지도 데이터에 의존하지 않고 다양한 영웅 유형과 복잡한 마이크로 관리 액션을 모델링할 수 있는 통합적이고 견고한 신경망 아키텍처를 설계하기 위해.
계획, 속임수, 정밀한 스킬 조합이 요구되는 실시간 부분 관찰 전투 상황에서 최고의 전문 플레이어를 능가할 수 있도록 AI 에이전트를 구현하기 위해.

제안 방법

효율적인 대규모 훈련을 위한 고도로 모듈화되고 결합도가 낮은 확장 가능한 오프-폴리시 딥 강화학습 시스템.
다중 모odal 입력 인코딩, 분리된 제어 종속성, LSTM 기반 스킬 조합 모델링을 갖춘 액터-크리틱 신경망.
탐색 중 유효하지 않은 액션을 제한하기 위한 액션 마스킹으로, 고차원 액션 공간에서 샘플 효율성을 향상시킴.
복잡하고 변화하는 전투 상황에서 최적의 대상을 동적으로 선택하기 위한 대상 주의 메커니즘.
훈련 안정성과 수렴 보장을 위해 개선된 표준 PPO보다 우수한 성능을 내는 이중 클리핑 PPO 알고리즘.
탐색을 향상시키고 수렴 속도를 가속화하기 위해 전체 롤아웃(FR)과 무작위 초기 프레임(RIF) 전략을 활용함.

실험 결과

연구 질문

RQ1극도로 고차원의 상태 공간과 액션 공간을 가진 1v1 MOBA 게임에서 딥 강화학습 에이전트가 인간 수준 또는 초인적 성능을 달성할 수 있는가?
RQ2제어 종속성과 액션 공간 복잡성은 어떻게 효과적으로 분리되어야 하며, 이는 복잡한 실시간 전략 게임에서 안정적인 훈련을 가능하게 하는가?
RQ3주의 메커니즘과 액션 마스킹은 부분 관찰 가능하고 동적인 전투 환경에서 샘플 효율성과 정책 성능을 얼마나 향상시키는가?
RQ4통합된 딥 강화학습 프레임워크는 MOBA 1v1 환경에서 뚜렷한 플레이 스타일을 가진 다양한 영웅 유형에 일반화될 수 있는가?
RQ5대규모 MOBA 훈련에서 최적의 수렴과 성능을 얻기 위해 어떤 훈련 설정(예: 전체 롤아웃 대 부분 롤아웃, RIF 대 ZS)이 가장 효과적인가?

주요 결과

제안된 프레임워크로 훈련된 AI 에이전트인 텐센트 솔로는 1v1 환경에서 최고의 전문 플레이어와의 대결에서 70%에서 80%의 승률을 기록했다.
전체 롤아웃(FR) 전략의 사용은 AI 성능을 크게 향상시켰으며, 1000~3000 프레임 범위에서 부분 롤아웃(PR) 대비 승률을 70~80%로 끌어올렸다.
무작위 초기 프레임(RIF) 전략은 훈련 수렴 속도를 15% 가속화했지만, 최종 AI 능력은 약간 감소시켰으며, ZS 초기화 대비 40%의 승률을 기록했다.
대상 주의와 LSTM 모듈의 조합은 에이전트가 복잡한 스킬 조합 시퀀스와 동적 대상 선택을 처리하는 능력을 향상시켰다.
제어 종속성 분리와 액션 마스킹은 고차원 액션 공간에서 더 효율적인 탐색과 정책 안정성을 향상시켰다.
이중 클리핑 PPO 알고리즘은 MOBA 1v1의 복잡하고 희박한 보상 구조 환경에서 표준 PPO보다 뛰어난 성능을 내며 안정적인 훈련 수렴을 보장했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.