[論文レビュー] Towards Playing Full MOBA Games with Deep Reinforcement Learning
本論文は、教育カリキュラムによる自己対戦、ポリシー蒸留、オフポリシー適応、マルチヘッド価値推定、MCTSを用いて、40ヒーローまでの大規模ヒーロープールを用いたMOBA AIフレームワークを提示し、Honor of Kingsのトップeスポーツに対して実証した。
MOBA games, e.g., Honor of Kings, League of Legends, and Dota 2, pose grand challenges to AI systems such as multi-agent, enormous state-action space, complex action control, etc. Developing AI for playing MOBA games has raised much attention accordingly. However, existing work falls short in handling the raw game complexity caused by the explosion of agent combinations, i.e., lineups, when expanding the hero pool in case that OpenAI's Dota AI limits the play to a pool of only 17 heroes. As a result, full MOBA games without restrictions are far from being mastered by any existing AI system. In this paper, we propose a MOBA AI learning paradigm that methodologically enables playing full MOBA games with deep reinforcement learning. Specifically, we develop a combination of novel and existing learning techniques, including curriculum self-play learning, policy distillation, off-policy adaption, multi-head value estimation, and Monte-Carlo tree-search, in training and playing a large pool of heroes, meanwhile addressing the scalability issue skillfully. Tested on Honor of Kings, a popular MOBA game, we show how to build superhuman AI agents that can defeat top esports players. The superiority of our AI is demonstrated by the first large-scale performance test of MOBA AI agent in the literature.
研究の動機と目的
- 大規模ヒーロープールを持つ完全MOBAゲームの学習スケーラビリティを解決する。
- 複数ヒーローを表現可能な統一的なactor-criticアーキテクチャを開発する。
- MOBAのマルチエージェント設定における非定常性と組合せ行動空間を緩和する。
- 学習を安定化・加速させるためのカリキュラムベースの自己対戦とポリシー蒸留を導入する。
- 大規模プール下でのヒーロー選択を効率的に行うためにMCTSと学習済み価値予測子を用いる。
提案手法
- MOBAの組合せ行動を処理する階層的な action heads と masks を持つ actor-critic ネットワークを使用する。
- Replayされた経験からの学習を安定化させるためにオフポリシー Dual-clip PPO を適用する。
- 報酬を五つのヘッド(Farming, KDA, Damage, Pushing, Win/Lose)に分解してマルチヘッド価値推定を組み込む。
- 三段階のCSPL(固定ラインアップ教師訓練、マルチ教師蒸留、統合継続学習)を用いたカリキュラム自己対戦学習を実装する。
- 学生モデルが複数の固定ラインアップ教師モデルから学習するポリシー蒸留を実施する。
- MCTSベースのドラフトエージェントを価値ネットワークと勝率予測子とともに開発し、大規模プール下でのヒーロー選択を行う。
- オフポリシーデータを用いたスケーラブルな学習のための分散型 Actor-Learner インフラを採用する。
実験結果
リサーチクエスチョン
- RQ1MOBA AIは40ヒーローまでの大規模ヒーロープールでパフォーマンス崩壊なく学習できるか。
- RQ2カリキュラム自己対戦と蒸留はMOBAの多-agent RLを安定化・加速できるか。
- RQ3マルチヘッド価値推定はMOBA設定での価値推定を改善するか。
- RQ4MCTSベースのドラフトはMOBAの大規模ヒーロープールに対して実現可能かつ有効か。
- RQ5提案するMOBA AIの実戦性能はプロプレイヤーおよび人間対戦相手に対してどうか。
主な発見
| Heroes | Training method | Phase1 | Phase2 | Phase3 | Total time | Note |
|---|---|---|---|---|---|---|
| 20 | Baseline | 0 h | 0 h | 192 h | 192 h | slow convergence |
| 20 | CSPL | 72 h | 48 h | 24 h | 144 h | fast convergence |
| 40 | Baseline | 0 h | 0 h | NA (>480 h) | <480 h | very slow or non convergence |
| 40 | CSPL | 144 h | 48 h | 144 h | 336 h | fast convergence |
- 40ヒーロープールで訓練されたAIは42試合中にプロeスポーツ選手を撃破し、勝率は95.2%。
- AIは642,047試合でトップ人間選手に対して勝率97.7%を達成。
- CSPLはスケーラビリティを改善:40ヒーローCSPLは約336時間で収束、ベースラインよりも480時間以上短い。
- マルチヘッド価値推定、オフポリシー適応、CSPLのメリットがアブレーション実験で示される。
- MCTSベースのドラフトはランダムおよび勝率ベースのドラフト戦略を上回った。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。