QUICK REVIEW

[論文レビュー] Dota 2 with Large Scale Deep Reinforcement Learning

OpenAI, :|arXiv (Cornell University)|Dec 13, 2019

Reinforcement Learning in Robotics参考文献 37被引用数 1,043

ひとこと要約

OpenAI Five は 159M パラメータの LSTM ポリシーを用いた PPO で自己対戦強化学習エージェントを大規模に訓練し、数千の GPU で 10 か月にわたる訓練を経て Dota 2 世界チャンピオン（OG）を打ち負かし、人間に対して 99.4% の勝率を達成しました。また、継続的な訓練のための surgery を導入し、バッチサイズ、データ品質、長期的クレジット割り当てを分析しています。

ABSTRACT

On April 13th, 2019, OpenAI Five became the first AI system to defeat the world champions at an esports game. The game of Dota 2 presents novel challenges for AI systems such as long time horizons, imperfect information, and complex, continuous state-action spaces, all challenges which will become increasingly central to more capable AI systems. OpenAI Five leveraged existing reinforcement learning techniques, scaled to learn from batches of approximately 2 million frames every 2 seconds. We developed a distributed training system and tools for continual training which allowed us to train OpenAI Five for 10 months. By defeating the Dota 2 world champion (Team OG), OpenAI Five demonstrates that self-play reinforcement learning can achieve superhuman performance on a difficult task.

研究の動機と目的

Dota 2 の複雑で長期的・部分観測環境へ強化学習をスケールさせる。
進化するゲームバージョンに対応する長期実験を可能にする分散型継続訓練システムを開発する。
環境変化なしに学習ポリシーを保存・適応する外科的転移（surgery）を探究する。
Dota 2 の世界チャンピオンを打ち負かすことで超人的性能を示し、人間プレイヤーに対する一般化を評価する。

提案手法

Generalized Advantage Estimation (GAE)を用いた Proximal Policy Optimization (PPO) を、中央の 4096 単位の LSTM を持つリカレントポリシーと、5 人のヒーローを対象とする別個の actor-critic ヘッドで適用する。
GPU へのピクセル入力をレンダリングするのではなく、観測空間を高次元からコンパクトなベクトルへ処理する。
最大 1536 GPU を用いた大規模な非同期ロールアウト-最適化ループを運用し、更新ごとに総バッチサイズを約 2.95 百万タイムステップに達させる。
3 つの訓練インフラを制御する：ロールアウト（CPU 上のゲームプレイ）、フォワードパス GPU（ポリシーサンプリング）、オプティマイザ GPU（勾配更新）。
環境・観測・行動空間の変更に対して、訓練をゼロから再開せずに事前訓練ポリシーを適応させる継続的転送機構である surgery を実装する。

実験結果

リサーチクエスチョン

RQ1自分で学習する強化学習は、非常に複雑で長期的・部分観測のゲームである Dota 2 をマスターし、超人的性能を達成できるか。
RQ2バッチサイズ、データ品質、非同期データパイプラインは、大規模 RL の学習速度と最終性能にどのように影響するか。
RQ3パフォーマンス低下なしに環境・ゲームバージョンの変更を跨ぐ継続的転送を可能にするメカニズム（surgery）は何か。
RQ4Dota 2 のような非常に長い horizon のタスクで、長期的クレジット割り当てをどの程度学習・活用できるか。
RQ5エージェントの性能は時間とともに専門家の人間プレイヤーやチームとどのように比較されるか。

主な発見

OpenAI Five は Dota 2 世界チャンピオン（Team OG）を対戦形式のベストオブ3 で 2-0 で打ち負かした。
OpenAI Five は Arena で人間プレイヤーに対して 7,000 試合超で 99.4% の勝利を収めた。
エージェントはゲームイベントに対して平均約 217 ms で反応できる。
バッチサイズを増やすとスピードアップが得られた（例：Rerun 実験で 2.5 倍のスピードアップ）が、初期訓練ではスピードアップは非線形であった。
データ品質要因（陳腐化、サンプル再利用）は学習速度と最終性能に重大な影響を与え、陳腐化を 0–1 の範囲に保ち、サンプル再利用を最小化することが重要である。
長期的な計画立案の恩恵が見られた；より長い horizon で訓練を再開すると勝率が向上するが、非常に高い horizon では収益の減少が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。