Skip to main content
QUICK REVIEW

[論文レビュー] SCC: an efficient deep reinforcement learning agent mastering the game of StarCraft II

Xiangjun Wang, Junxiao Song|arXiv (Cornell University)|Dec 24, 2020
Artificial Intelligence in Games参考文献 22被引用数 28
ひとこと要約

SCCは、AlphaStarと比較して10倍少ない計算資源を用いて、サンプル効率の高い深層強化学習エージェントとして、StarCraft IIでグランドマスター級のパフォーマンスを達成した。ニューラルアーキテクチャの最適化、小規模なデータセットを用いた高品質な示範学習の活用、リーグベースの強化学習におけるエージェント分岐の採用により、SCCはトッププレイヤーを破り、人間のプレイでは観察されない新しい戦略を発見した。

ABSTRACT

AlphaStar, the AI that reaches GrandMaster level in StarCraft II, is a remarkable milestone demonstrating what deep reinforcement learning can achieve in complex Real-Time Strategy (RTS) games. However, the complexities of the game, algorithms and systems, and especially the tremendous amount of computation needed are big obstacles for the community to conduct further research in this direction. We propose a deep reinforcement learning agent, StarCraft Commander (SCC). With order of magnitude less computation, it demonstrates top human performance defeating GrandMaster players in test matches and top professional players in a live event. Moreover, it shows strong robustness to various human strategies and discovers novel strategies unseen from human plays. In this paper, we will share the key insights and optimizations on efficient imitation learning and reinforcement learning for StarCraft II full game.

研究の動機と目的

  • 制限された計算リソースの下で高性能なStarCraft II AIエージェントを開発すること。
  • StarCraft IIのような複雑なRTSゲームにおける深層強化学習のサンプルおよび計算リソース要件を低減すること。
  • 明示的な訓練を受けていない未確認のマップやレースに対しても強力な一般化性能を発揮するとともに、対戦略へのレジリエンスを維持すること。
  • 効率的な探索を用いた強化学習によって、人間が行っていない新しい戦略を発見すること。
  • リソース制限のある環境における深層強化学習研究のためのスケーラブルで効率的なフレームワークを提供すること。

提案手法

  • 人間のリプレイを用いた教師付き示範学習の後、リーグ形式の強化学習を実施する二段階のトレーニングパイプラインの採用。
  • 入力ミニマップのサイズを128×128から64×64に削減することでニューラルネットワークアーキテクチャを最適化し、性能損失を最小限に抑えつつ効率性を向上。
  • グループトランスフォーマー、アテンションプーリング、条件付き連結アテンションなどのアテンションベースのメカニズムを適用し、特徴表現を強化。
  • 大バッチ微調整を用いて、高品質で小規模なリプレイデータセット(4,638レプレイ)を活用し、優れた示範学習パフォーマンスを達成。
  • エージェント分岐を導入し、メインエージェントとエクスプロイターの効率的かつ動的適応を可能にし、多様な相手戦略への適応を実現。
  • 優れた相手に焦点を当てる優先順位付き仮想自己対戦メカニズムを採用し、リーグトレーニング中にポリシーのレジリエンスを向上。

実験結果

リサーチクエスチョン

  • RQ1深層強化学習エージェントは、顕著に少ない計算リソースでStarCraft IIにおいてトップ人間プレイヤーのパフォーマンスを達成できるか?
  • RQ2大規模データではなく、小規模で高品質なリプレイデータセットを用いた場合、示範学習はどの程度効果的か?
  • RQ3明示的な訓練を受けていない未確認のマップやレースに対し、強化学習エージェントはどの程度一般化できるか?
  • RQ4強化学習における効率的な探索は、複雑なRTSゲームで人間が行っていない新しい戦略の発見を可能にするか?
  • RQ5どのようなアーキテクチャ的およびトレーニング最適化が、フルゲームのStarCraft IIにおける深層強化学習の高いサンプル効率を可能にするか?

主な発見

  • SCCは、教師付き学習において、組み込みエリートボットに対して97%の勝率を記録し、最小限の計算リソースで優れたポリシー性能を示した。
  • テストマッチにおいて、SCCは複数のスキルレベルのグランドマスター級人間プレイヤーに全5戦を勝利した。
  • ライブマッチでは、SCCはプロプレイヤーTIMEおよびTooDming(両者ともグランドマスター王者)と対戦し、2試合中2勝を挙げ、ベストオブスリーで2:0の勝利を収めた。
  • SCCは、人間のプレイでは稀な「大規模なヴィンギルの上陸」戦略を発見・実行し、後にStarCraftコミュニティで採用された。
  • トレーニング中、SCCの平均APMは約250から約400に上昇し、トップ人間プレイヤーの水準に近づいた。
  • 限られた計算リソースの下でも、SCCは優れた一般化性能を示し、未確認のマップやZerg、Protossなど異なるレースに対しても良好なパフォーマンスを発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。