QUICK REVIEW

[論文レビュー] Massively Parallel Methods for Deep Reinforcement Learning

Arun Sukumaran Nair, P. Srinivasan|arXiv (Cornell University)|Jul 15, 2015

Reinforcement Learning in Robotics参考文献 17被引用数 405

ひとこと要約

この論文は、分散型エージェント、学習者、共有ニューラルネットワーク、集中型経験リプレイを用いてDQNをスケーリングする、大規模並列な深層強化学習アーキテクチャであるGorilaを紹介する。49種類のAtari 2600ゲームにおいて最先端の性能を達成し、41ゲームで単一GPUのDQNを上回り、壁時計時間のトレーニングを10倍短縮した。また、未観測状態への一般化性能も優れている。

ABSTRACT

We present the first massively distributed architecture for deep reinforcement learning. This architecture uses four main components: parallel actors that generate new behaviour; parallel learners that are trained from stored experience; a distributed neural network to represent the value function or behaviour policy; and a distributed store of experience. We used our architecture to implement the Deep Q-Network algorithm (DQN). Our distributed algorithm was applied to 49 games from Atari 2600 games from the Arcade Learning Environment, using identical hyperparameters. Our performance surpassed non-distributed DQN in 41 of the 49 games and also reduced the wall-time required to achieve these results by an order of magnitude on most games.

研究の動機と目的

単一マシンでのトレーニングを超えて、大規模並列性を活用した深層強化学習のスケーリングを実現すること。
並列エージェントによる経験の多様性と量の増加を通じて、深層Qネットワークのサンプル効率と一般化性能を向上させること。
Atari 2600ゲームにおける性能を維持または向上させながら、DQNの壁時計時間トレーニングを短縮すること。
DQNの性能が分散トレーニングによる計算力とメモリの増加に伴いスケーリングするかを検証すること。
高次元入力を伴う複雑な制御タスクに適用可能な汎用的でスケーラブルな強化学習フレームワークの開発

提案手法

100個の並列エージェントが、それぞれ別々のAtari環境インスタンスと相互作用し、多様な経験を生成する。
分散型で共有されるリプレイバッファに経験を格納することで、効率的なサンプリングが可能となり、単一マシンの制限を超えてスケーリングできる。
Q関数を表す分散型ニューラルネットワークを用い、複数の学習者が非同期的に確率的勾配降下法を用いてパラメータを更新する。
学習者は共有経験バッファから非同期にサンプリングし、DQNアルゴリズムに二重Q学習と優先順位付き経験リプレイを適用して、グローバルQネットワークのパラメータを更新する。
複数のマシンで非同期確率的勾配降下法（ASGD）を用いてQネットワークをトレーニングし、高いスループットとスケーラビリティを実現する。
ハイパーパrameterは3つのゲーム（Breakout, Pong, Seaquest）でチューニングし、全49ゲームに同一の設定を適用することで一貫性と一般化を確保した。

実験結果

リサーチクエスチョン

RQ1DQNのような深層強化学習アルゴリズムは、データ収集と学習の両方において、大規模並列性を効果的にスケーリングできるか？
RQ2経験リプレイとニューラルネットワークパラメータの分散化は、複雑な制御タスクにおけるサンプル効率と性能を向上させるか？
RQ3分散強化学習システムは、単一マシンDQNと比較して、未観測状態への一般化性能が優れているか？
RQ4分散DQNシステムは、単一GPU DQNに到達するまでの速度がどの程度速くなり、それを上回るか？
RQ5増加した並列性は、多様なAtari 2600ゲーム、特に人間のプレイ状態への一般化において、性能向上をもたらすか？

主な発見

Gorila DQNは、人間スタート評価において49種類のAtari 2600ゲームのうち41ゲームで単一GPU DQNを上回り、11ゲームでは5倍の性能向上を達成した。
システムは、壁時計時間で単一GPU DQNに到達するまでの時間を約10分の1に短縮し、19ゲームは6時間以内にそれを上回った。
25ゲームでは、人間のプロのスコアの75％以上を人間プレイ状態から達成し、優れた一般化性能を示した。
より長いトレーニング時間でも性能が向上を続けたことから、分散アーキテクチャが単一マシンの限界を超えて持続的な学習効果をもたらすことが示された。
100個の並列エージェントの使用により、状態訪問の多様性が顕著に向上し、一般化性能とロバストネスの向上に寄与した。
フレームワークは、DQNの性能が計算力とメモリの増加に伴い効果的にスケーリングされることを実証し、スケーラブルな分散RLパイプラインの設計の有効性を裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。