QUICK REVIEW

[論文レビュー] Efficient Parallel Methods for Deep Reinforcement Learning

Alfredo Vicente Clemente, Humberto Nicolás Castejón|arXiv (Cornell University)|May 13, 2017

Reinforcement Learning in Robotics参考文献 5被引用数 80

ひとこと要約

PAACはGPU対応の同期的なマルチアクター並列フレームワークを導入し、1台のマシン上で数百のアクターから on-policy 学習を行い、数時間で Atari の最先端成果を達成します。複数のゲームで Gorila、A3C、GA3C と比較して有利です。

ABSTRACT

We propose a novel framework for efficient parallelization of deep reinforcement learning algorithms, enabling these algorithms to learn from multiple actors on a single machine. The framework is algorithm agnostic and can be applied to on-policy, off-policy, value based and policy gradient based algorithms. Given its inherent parallelism, the framework can be efficiently implemented on a GPU, allowing the usage of powerful models while significantly reducing training time. We demonstrate the effectiveness of our framework by implementing an advantage actor-critic algorithm on a GPU, using on-policy experiences and employing synchronous updates. Our algorithm achieves state-of-the-art performance on the Atari domain after only a few hours of training. Our framework thus opens the door for much faster experimentation on demanding problem domains. Our implementation is open-source and is made public at https://github.com/alfredvc/paac

研究の動機と目的

単一マシン上で深層強化学習の効率的な並列化を促進・実現する。
オンポリシー、オフポリシー、価値ベース、および方策勾配法を扱えるアルゴリズム非依存のフレームワークを開発する。
多数のアクターを用いた同期更新が高速な学習と高い性能を達成できることを示す。
要求の厳しい領域での実験を加速するオープンソース実装を提供する。

提案手法

n_e環境とn_wワーカーを用いた、経験を収集して単一のニューラルネットワークパラメータをバッチ更新する一般的な並列フレームワークを提案する。
非同期法でよくある古い勾配の問題を回避するため、同期的なバッチ更新を用いる。
Policyと価値ネットワークがパラメータを共有する、n-step A2Cスタイルのアルゴリズムである Parallel Advantage Actor-Critic (PAAC) を用いて実演する。
PAAC では、ポリシーと値の勾配をサイズ n_e * t_max のミニバッチを用いて計算し、重みを同期的に更新する。
2つのネットワークアーキテクチャを用いてモデルサイズの影響を比較（arch_nips と arch_nature）し、Atari 2600 で GPU 上の TensorFlow を用いて訓練する。

実験結果

リサーチクエスチョン

RQ1単一マシンで非常に高い並列性を持つフレームワークは、オンポリシー・オフポリシー・価値ベース・ポリシー勾配法の強化学習アルゴリズムを効率的にサポートできるか。
RQ2GPU 上の同期的マルチアクター訓練は、従来の並列手法と比較して著しく短縮された訓練時間で Atari における最先端性能を提供するか。
RQ3異なるネットワークアーキテクチャとアクター数が、並列RL設定における学習速度と安定性にどう影響するか。
RQ4並列アクターの数を増やすことで、環境との相互作用時間と学習時間の間にどのようなトレードオフが生まれるか。

主な発見

ゲーム	Gorila	A3C FF	GA3C	PAAC arch_nips	PAAC arch_nature
Amidar	1189.70	263.9	218	701.8	1348.3
Centipede	8432.30	3755.8	7386	5747.32	7368.1
Beam Rider	3302.9	22707.9	N/A	4062.0	6844.0
Boxing	94.9	59.8	92	99.6	99.8
Breakout	402.2	681.9	N/A	470.1	565.3
Ms. Pacman	3233.50	653.7	1978	2194.7	1976.0
Name This Game	6182.16	10476.1	5643	9743.7	14068.0
Pong	18.3	5.6	18	20.6	20.9
Qbert	10815.6	15148.8	14966.0	16561.7	17249.2
Seaquest	13169.06	2355.4	1706	1754.0	1755.3
Space Invaders	1883.4	15730.5	N/A	1077.3	1427.8
Up n Down	12561.58	74705.7	8623	88105.3	100523.3

PAAC は単一マシンで数時間の訓練のみで Atari 2600 ドメインで最先端の性能を達成する。
PAAC は報告された結果で 12 試合中 8 試合で Gorila を上回り、8 試合で A3C FF を上回る。
PAAC はほとんどの試験ゲームで GA3C に匹敵し、Table 1 に示されるいくつかでそれを上回る。
環境数 n_e を増やすと、学習時間（特定の timestep への進捗）を速め、競争力のあるスコアを維持する一方で、学習率スケーリングが不十分な場合には非常に大きい n_e で一部発散が見られる。
このフレームワークは、単一のパラメータコピーと同期更新で真の on-policy 学習を可能にし、古い勾配や非同期性に起因する問題を低減する。
実験は、2つのアーキテクチャ（arch_nips と arch_nature）および GPU 上での訓練能力を示し、Atari で substantial speedups（数日ではなく数時間）を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。