QUICK REVIEW

[論文レビュー] Episodic Exploration for Deep Deterministic Policies: An Application to StarCraft Micromanagement Tasks

Nicolas Usunier, Gabriel Synnaeve|arXiv (Cornell University)|Sep 10, 2016

Artificial Intelligence in Games参考文献 8被引用数 102

ひとこと要約

The paper introduces StarCraft micromanagement benchmarks for RL and a heuristic episodic exploration method that randomizes policy parameters at episode start, enabling learning with deterministic policies where Q-learning and REINFORCE struggle.

ABSTRACT

We consider scenarios from the real-time strategy game StarCraft as new benchmarks for reinforcement learning algorithms. We propose micromanagement tasks, which present the problem of the short-term, low-level control of army members during a battle. From a reinforcement learning point of view, these scenarios are challenging because the state-action space is very large, and because there is no obvious feature representation for the state-action evaluation function. We describe our approach to tackle the micromanagement scenarios with deep neural network controllers from raw state features given by the game engine. In addition, we present a heuristic reinforcement learning algorithm which combines direct exploration in the policy space and backpropagation. This algorithm allows for the collection of traces for learning using deterministic policies, which appears much more efficient than, for example, ε-greedy exploration. Experiments show that with this algorithm, we successfully learn non-trivial strategies for scenarios with armies of up to 15 agents, where both Q-learning and REINFORCE struggle.

研究の動機と目的

リアルタイムストラテジーのミクロマネジメントタスクにおいて、巨大な状態空間と行動空間、そして明らかな特徴表現が存在しない状況で、強化学習を動機づける。
micromanagementタスク（例：m5v5、m15v16、dragoons_zealots、w15v17）と、生のゲームエンジン特徴から訓練された深層ニューラルネットワークコントローラ。
エピソード開始時にネットワークパラメータをランダム化して方策空間を探索し、勾配法を用いない更新とバックプロパゲーションを組み合わせるヒューリスティック強化学習アルゴリズムを開発する。
多ユニットStarCraftタスクにおいて、標準的なRLベースライン（Q-learning、REINFORCE）を提案手法と比較評価し、探索と学習効率を強調する。

提案手法

StarCraftにおける複数ユニットと持続的アクション（moveとattack）を含むミクロマネジメントタスクを定義し、結合アクション選択を簡略化するための貪欲推論スキームを導入する。
行動をユニット-コマンド対の列として扱うMDPとして問題を定式化し、十分な方策容量の下で最適性を保ちつつ結合アクションの複雑さを低減するgreedy MDPを導入する。
ユニットごとの候補コマンドを評価する深層ニューラルネットワークを用いた結合状態-行動特徴表現を使い、可変ユニット数に対応するプーリングを備えた状態-行動埋め込みを適用する。
ユニット数の変動を跨いだ学習を安定化させるため、正規化された累積報酬を導入し、一貫した勾配更新を可能にする。
勾配ベースの更新とともに決定論的方策を摺動させるゼロ次バックプロパゲーション（ZO）アルゴリズムを提示し、パラメータ空間の探索とバックプロパゲーションを混ぜ合わせる。
パラメータ更新にはAdagradを用い、状態-行動特徴と行動タイプ（attack/move）を扱う二段階埋め込みネットワークに依存する。

実験結果

リサーチクエスチョン

RQ1生の状態特徴と手作りのアクションなしで、RLアルゴリズムはStarCraftにおいて意味のあるミクロマネジメント戦略を学習できるか？
RQ2パラメータのランダム化による方策空間での探索は、離散アクション空間における決定論的方策の学習効率を向上させるか？
RQ3Greedy推論（逐次的なユニット単位の行動選択）は、StarCraftのミクロマネジメントタスクにおける多ユニット制御に有効か？
RQ4標準的なベースライン（Q-learning、REINFORCE）は、提案された方策空間探索法と比較して多ユニットタスクでどのように機能するか？
RQ5異なるユニット数にわたる報酬正規化が学習の安定性と性能に与える影響は何か？

主な発見

このアプローチは、片側あたり最大15ユニットの軍勢があるシナリオで非自明な戦略の学習を可能にする。
Q-learningとREINFORCEはこれらのミクロマネジメントタスクで苦戦する一方、提案された方策空間探索法は成功する。
深い状態-行動スコアラーを用いたGreedy推論は、決定論的方策の下で多ユニットの協調を効率的に管理できる。
パラメータ空間の探索とバックプロパゲーションを混ぜ合わせるゼロ次バックプロパゲーションアルゴリズムは、この領域の大規模ニューラルネットワークの学習を促進する。
実験は強力なベースラインに対する改善を示し、生の特徴量から直接ミクロマネジメント戦略を学習することの実現性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。