QUICK REVIEW

[論文レビュー] SEED RL: Scalable and Efficient Deep-RL with Accelerated Central Inference

Lasse Espeholt, Raphaël Marinier|arXiv (Cornell University)|Oct 15, 2019

Reinforcement Learning in Robotics参考文献 42被引用数 37

ひとこと要約

SEED は中央集約推論と高速ストリーミングRPCを備えたスケーラブルな深層強化学習エージェントで、Atari-57、DeepMind Lab、Google Research Football の比較で IMPALA より壁時計時間を短縮し、コストを低減し、V-trace と R2D2 をサポートします。

ABSTRACT

We present a modern scalable reinforcement learning agent called SEED (Scalable, Efficient Deep-RL). By effectively utilizing modern accelerators, we show that it is not only possible to train on millions of frames per second but also to lower the cost of experiments compared to current methods. We achieve this with a simple architecture that features centralized inference and an optimized communication layer. SEED adopts two state of the art distributed algorithms, IMPALA/V-trace (policy gradients) and R2D2 (Q-learning), and is evaluated on Atari-57, DeepMind Lab and Google Research Football. We improve the state of the art on Football and are able to reach state of the art on Atari-57 three times faster in wall-time. For the scenarios we consider, a 40% to 80% cost reduction for running experiments is achieved. The implementation along with experiments is open-sourced so results can be reproduced and novel ideas tried out.

研究の動機と目的

現代の加速器を効率的に活用するスケーラブルな強化学習を動機づける。
遅延とコストを削減するための中央推論と最適化された通信を備えた SEED アーキテクチャを提案する。
多様なベンチマークにおいて V-trace（ポリシー勾配）と R2D2（Q学習）を用いた SEED を示す。
性能を維持しつつ IMPALA に対する速度向上とコスト削減を示す。
再現性と実験性のためのオープンソース実装を提供する。

提案手法

学習機で中央推論を行い、リモート環境を用いた Actor-Learner 構成を採用する。
遅延とオーバーヘッドを最小化するため、バッチ処理を伴うストリーミング gRPC を活用する。
SEED 内でポリシー勾配学習の V-trace を実装する。
学習者常駐のリプレイバッファとオプションの大規模リプレイを備えた R2D2 風の Q 学習を実装する。
TPU 上で推論/トレーニングのコア割り当てを調整し、スループットと利用率を最大化する。
加速トレーニングのために 2 から 8 TPU v3 コア以上へのスケーリングを実証する。

実験結果

リサーチクエスチョン

RQ1SEED は IMPALA と比較して wall-clock トレーニング時間と運用コストを削減しつつ、最先端の性能を達成できるか？
RQ2迅速なストリーミング RPC を備えた中央推論は、さまざまな環境でリソースの利用率とスケーラビリティを改善するか？
RQ3Atari-57、DeepMind Lab、Google Research Football における SEED の中央推論アーキテクチャ内で V-trace および R2D2 の実装はどの程度性能を発揮するか？
RQ4SEED におけるバッチサイズ、コア割り当て、サンプル効率のトレードオフは何か？
RQ5SEED の実装はオープンソースで、クラウド基盤上で再現性があるか？

主な発見

SEED は評価タスク全般で IMPALA より壁時計時間のトレーニングを高速化し、例として DeepMind Lab で 2 TPU コア使用時に 2.5 倍、コアを TPU pod (2048 コア) へスケールすると最大で 11 倍高速化。
SEED は CPU 使用量と総コストを削減し、検討されたシナリオで最大80%のコスト削減を報告。
On Atari-57, SEED は R2D2 および関連エージェントより wall-time で 3.1 倍速く最先端の中央値ヒト正規化スコアに到達。
SEED は Google Research Football の結果を改善し、地図サイズや報酬設定を変えて前の最先端スコアを上回り、コアを増やすとスケールする。
アーキテクチャは R2D2 に相当するサンプル効率を維持しつつ、スケール時には毎秒百万レベルのフレーム訓練を可能にする。ただし非常に大きなバッチサイズではサンプル効率にいくつかのトレードオフがある。
The open-source SEED implementation on Google Cloud facilitates reproducibility and experimentation.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。