QUICK REVIEW

[論文レビュー] ELF: An Extensive, Lightweight and Flexible Research Platform for Real-time Strategy Games

Yuandong Tian, Qucheng Gong|arXiv (Cornell University)|Jul 4, 2017

Reinforcement Learning in Robotics参考文献 15被引用数 58

ひとこと要約

ELFは、3つの環境（Mini-RTS、Capture the Flag、Tower Defense）を備えた、軽量で柔軟なRTS研究プラットフォームを提供し、高スループットでのエンドツーエンドのRLトレーニングを可能にし、オープンソースで公開されています。

ABSTRACT

In this paper, we propose ELF, an Extensive, Lightweight and Flexible platform for fundamental reinforcement learning research. Using ELF, we implement a highly customizable real-time strategy (RTS) engine with three game environments (Mini-RTS, Capture the Flag and Tower Defense). Mini-RTS, as a miniature version of StarCraft, captures key game dynamics and runs at 40K frame-per-second (FPS) per core on a Macbook Pro notebook. When coupled with modern reinforcement learning methods, the system can train a full-game bot against built-in AIs end-to-end in one day with 6 CPUs and 1 GPU. In addition, our platform is flexible in terms of environment-agent communication topologies, choices of RL methods, changes in game parameters, and can host existing C/C++-based game environments like Arcade Learning Environment. Using ELF, we thoroughly explore training parameters and show that a network with Leaky ReLU and Batch Normalization coupled with long-horizon training and progressive curriculum beats the rule-based built-in AI more than $70\%$ of the time in the full game of Mini-RTS. Strong performance is also achieved on the other two games. In game replays, we show our agents learn interesting strategies. ELF, along with its RL platform, is open-sourced at https://github.com/facebookresearch/ELF.

研究の動機と目的

リアルタイム戦略（RTS）RL研究のために、広範で軽量かつ柔軟な研究プラットフォームを作成する。
複数の環境と高いシミュレーション速度を備えたRTSエンジンを提供する（例：Mini-RTSはコアあたり40K FPS）。
柔軟な環境-エージェント間通信トポロジーと既存のC/C++ゲーム環境との統合をサポートする。
組み込みAIに対してRLエージェントのエンドツーエンド訓練を可能にし、カリキュラム学習や階層的指令構造を含む訓練ダイナミクスを研究する。
RTSおよび関連分野のRL研究を加速するオープンソースフレームワークを提供する。

提案手法

C++ベースのゲームシミュレーションとPythonRLバックエンドによるバッチ処理のProducer-Consumerアーキテクチャを提案する。
柔軟な環境-モデルトポロジー（1対1、many-to-one、one-to-many）と効率的な訓練のためのマルチモデルバッチ処理をサポートする。
各種ゲームをホストする統一インターフェースを提供（例：アダプター経由のRTS、Atariなど）し、RAWピクセル入力と内部ゲームデータの両方を有効にする。
PythonベースのRLバックエンドに基礎的なRL手法（例：A3C、Policy Gradient、Q-learning、TRPO）を組み込む。
カリキュラム訓練と長期的な時間 Horizon、およびLeaky ReLUとBatch Normalizationを用いたネットワークアーキテクチャを調査して性能を向上させる。
Mini-RTSでエンドツーエンド訓練を実証し、複数のゲームで組み込みAIに対して評価する。
Monte-Carlo Tree Search (MCTS)を用いた計画を探求し、RLベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1ELFで訓練されたエンドツーエンドのRLエージェントは、部分情報下で完全なRTSゲームの組み込みルールベースAIを打ち負かすことができるか？
RQ2Leaky ReLU、BatchNormなどのアーキテクチャ選択と訓練設定（長い Horizon、カリキュラム）はRTSタスクの性能にどう影響するか？
RQ3フレームスキップ、履歴長、トポロジー構成の違いが学習効率と一般化にどのような影響を与えるか？
RQ4ELFはスループットと柔軟性の点で既存のRTS環境と比較して、迅速なRL実験にどの程度適しているか？
RQ5計画手法（MCTS）は完全情報下でRLの性能に近づくことができるか？このプラットフォーム内で。

主な発見

ELFは、特定のカリキュラムとネットワーク選択の下で、Mini-RTSのエージェントをエンドツーエンド訓練させ、組み込みAIを80%以上の勝率で打ち負かすことができる。
Mini-RTSは1CPUコアあたり40K FPSで動作し、妥当なハードウェアを備えた単一マシンで1日で全ゲームのボット訓練を可能にする。
Leaky ReLUとBatch Normalizationを備え、長期的なHorizon訓練と段階的カリキュラムを組み合わせると、基準より勝率が向上する。
カリキュラム訓練は、さまざまな対戦相手に対して訓練する場合や対戦相手タイプ間で微調整する場合に、性能と頑健性を著しく向上させる。
MCTSは完全情報下で競争力のある勝率を達成できるが、訓練されたRLエージェントより遅い。計画と学習の補完的なアプローチを示す。
ELFは柔軟なマルチ-トポロジーのRL実験をサポートし、3つのすべてのRTS環境（Mini-RTS、Capture the Flag、Tower Defense）で優れた性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。