QUICK REVIEW

[論文レビュー] Asynchronous Methods for Deep Reinforcement Learning

Volodymyr Mnih, Adrià Puigdomènech Badia|arXiv (Cornell University)|Feb 4, 2016

Reinforcement Learning in Robotics参考文献 32被引用数 1,690

ひとこと要約

本論文は、非同期・並列の actor-learners を用いて単一CPUマシンで深層強化学習エージェントを訓練する方法を提案し、A3C を含む四つの標準 RL アルゴリズムの非同期版を提案して、Atari、連続制御、および3D視覚ナビゲーションタスクで高い性能を達成します。

ABSTRACT

We propose a conceptually simple and lightweight framework for deep reinforcement learning that uses asynchronous gradient descent for optimization of deep neural network controllers. We present asynchronous variants of four standard reinforcement learning algorithms and show that parallel actor-learners have a stabilizing effect on training allowing all four methods to successfully train neural network controllers. The best performing method, an asynchronous variant of actor-critic, surpasses the current state-of-the-art on the Atari domain while training for half the time on a single multi-core CPU instead of a GPU. Furthermore, we show that asynchronous actor-critic succeeds on a wide variety of continuous motor control problems as well as on a new task of navigating random 3D mazes using a visual input.

研究の動機と目的

並列性を活用しつつ経験再生を避けた、軽量で安定した深層強化学習フレームワークを動機づける。
one-step Q-learning、one-step Sarsa、n-step Q-learning、および advantage actor-critic (A3C) の非同期版を提案する。
離散および連続タスクにわたる非同期手法の安定性、スケーラビリティ、およびデータ効率を示す。

提案手法

複数のCPUスレッドを非同期の actor-learners として用い、共有ニューラルネットワークモデルを on-policy あるいは off-policy で更新する。
学習を安定化させるため、並列 actor across による多様な探索に依存して経験再生を回避する。
非同期設定でニューラルネットワークを更新するために forward-view の n-step リターンを適用する。
Hogwild!-スタイルの更新方式でスレッド間でオプティマイザ統計を共有する。
A3C では、探索を促進するエントロピー保護付きで政策と価値関数を共同学習する。
モーメント付き SGD および RMSProp を用いた実験を行い、堅牢性のために共有された RMSProp 統計を強調する。

実験結果

リサーチクエスチョン

RQ1経験再生を用いずに、非同期の並列 actor-learners は深層ニューラルネットワークコントローラの訓練を安定化できるか？
RQ2Q-learning、Sarsa、n-step Q-learning、および A3C の非同期版は Atari、TORCS、MuJoCo、Labyrinth の各環境で機能するか？
RQ3並列性は、離散タスクと連続タスクの両方で性能を維持しつつ、スピードアップとデータ効率をもたらすか？

主な発見

4つの非同期手法はすべて Atari 2600 のゲームでニューラルネットワークコントローラの訓練に成功した。
A3C は Atari で最先端の性能を達成し、16 CPUコアとGPUなしで、訓練時間を半分に短縮して従来法を上回った。
非同期手法は並列ワーカー数とともに良くスケールし、大幅なスピードアップを達成する。
A3C は MuJoCo を用いた連続制御タスクおよび Labyrinth の視覚的な3D迷路ナビゲーションでも良好な性能を維持する。
Parallel actor-learners は replay なしでも値ベースの手法の学習に安定化効果をもたらす。
A3C を用いた CPU コアでの訓練は、いくつかの設定で GPU ベースの DQN を上回り、異なる学習率範囲で堅牢な学習を提供する。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。