[논문 리뷰] Towards Playing Full MOBA Games with Deep Reinforcement Learning
본 논문은 커리큘럼 자기학습, 정책 증류, 오프폴리시 적응, 다중 헤드 가치 추정 및 MCTS를 활용하여 대형 영웅 풀(최대 40명)의 MOBA 전체 플레이를 가능하게 하는 MOBA AI 프레임워크를 제시하며, Honor of Kings에서 최고 수준의 e스포츠 선수들을 상대로 시연한다.
MOBA games, e.g., Honor of Kings, League of Legends, and Dota 2, pose grand challenges to AI systems such as multi-agent, enormous state-action space, complex action control, etc. Developing AI for playing MOBA games has raised much attention accordingly. However, existing work falls short in handling the raw game complexity caused by the explosion of agent combinations, i.e., lineups, when expanding the hero pool in case that OpenAI's Dota AI limits the play to a pool of only 17 heroes. As a result, full MOBA games without restrictions are far from being mastered by any existing AI system. In this paper, we propose a MOBA AI learning paradigm that methodologically enables playing full MOBA games with deep reinforcement learning. Specifically, we develop a combination of novel and existing learning techniques, including curriculum self-play learning, policy distillation, off-policy adaption, multi-head value estimation, and Monte-Carlo tree-search, in training and playing a large pool of heroes, meanwhile addressing the scalability issue skillfully. Tested on Honor of Kings, a popular MOBA game, we show how to build superhuman AI agents that can defeat top esports players. The superiority of our AI is demonstrated by the first large-scale performance test of MOBA AI agent in the literature.
연구 동기 및 목표
- 큰 영웅 풀로 전체 MOBA 게임을 학습하는 확장성 문제를 다룬다.
- 여러 영웅을 표현할 수 있는 통합된 actor-critic 아키텍처를 개발한다.
- 다중 에이전트 MOBA 환경에서의 비정역성 및 조합 가능한 행동 공간을 완화한다.
- 학습의 안정화와 가속화를 위한 커리큘럼 기반 자기학습 및 정책 증류를 도입한다.
- MCTS와 학습된 가치 예측기를 활용한 효율적인 드래프팅(영웅 선택)을 가능하게 한다.
제안 방법
- MOBA의 조합적 행동을 처리하기 위해 계층적 액션 헤드와 마스크를 갖춘 actor-critic 네트워크를 사용한다.
- 재생된 경험으로부터 학습을 안정화하기 위해 off-policy Dual-clip PPO를 적용한다.
- 보상을 다섯 개의 헤드(Farming, KDA, Damage, Pushing, Win/Lose)로 분해하여 다중-헤드 가치 추정을 도입한다.
- 세 단계로 구성된 커리큘럼 자기학습(CSPL)을 구현한다: 고정 라인업 교사 학습, 다중 교사 증류, 결합된 지속 학습.
- 여러 고정 라인업 교사 모델로부터 학생 모델이 학습하는 정책 증류를 수행한다.
- 큰 풀에서 영웅을 선택하기 위한 가치 네트워크와 승률 예측기를 갖춘 MCTS 기반 드래프팅 에이전트를 개발한다.
- 오프폴리시 데이터를 이용한 확장 가능한 학습을 위한 분산된 Actor-Learner 인프라를 채택한다.
실험 결과
연구 질문
- RQ1MOBA AI가 40명의 영웅까지의 큰 풀에서 성능 저하 없이 학습하여 플레이할 수 있는가?
- RQ2커리큘럼 자기학습과 증류가 MOBA의 다중 에이전트 RL을 어떻게 안정화하고 가속할 수 있는가?
- RQ3다중 헤드 가치 아키텍처가 MOBA 설정에서 가치 추정을 향상시키는가?
- RQ4MOBA의 큰 영웅 풀에서 MCTS 기반 드래프팅이 가능하고 효과적인가?
- RQ5제안된 MOBA AI의 전문 선수 및 인간 상대에 대한 실증적 성능은 어떠한가?
주요 결과
- 40명 영웅 풀에서 학습한 AI가 42경기에서 95.2% 승률로 전문 e스포츠 선수들을 상대로 이겼다.
- 최고 수준의 인간 선수들을 상대로 642,047경기에서 97.7%의 승률을 달성했다.
- CSPL은 확장성을 향상시킨다: 40-hero CSPL은 약 336시간에 수렴하는 반면, baseline은 >480시간이다.
- 아블레이션 결과에서 다중 헤드 가치 추정, 오프폴리시 적응, CSPL의 이점이 나타난다.
- MCTS 기반 드래프팅이 무작위 및 승률 기반 드래프팅 전략보다 우수했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.