QUICK REVIEW

[論文レビュー] IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures

Lasse Espeholt, Hubert Soyer|arXiv (Cornell University)|Feb 5, 2018

Reinforcement Learning in Robotics参考文献 3被引用数 611

ひとこと要約

IMPALA は、デカップリングされたアクターと学習者を備えたスケーラブルな分散深層強化学習エージェントと V-trace オフポリシー補正を導入し、高いデータスループットと DMLab-30 および Atari-57 での強力なマルチタスク性能を実現します。

ABSTRACT

In this work we aim to solve a large collection of tasks using a single reinforcement learning agent with a single set of parameters. A key challenge is to handle the increased amount of data and extended training time. We have developed a new distributed agent IMPALA (Importance Weighted Actor-Learner Architecture) that not only uses resources more efficiently in single-machine training but also scales to thousands of machines without sacrificing data efficiency or resource utilisation. We achieve stable learning at high throughput by combining decoupled acting and learning with a novel off-policy correction method called V-trace. We demonstrate the effectiveness of IMPALA for multi-task reinforcement learning on DMLab-30 (a set of 30 tasks from the DeepMind Lab environment (Beattie et al., 2016)) and Atari-57 (all available Atari games in Arcade Learning Environment (Bellemare et al., 2013a)). Our results show that IMPALA is able to achieve better performance than previous agents with less data, and crucially exhibits positive transfer between tasks as a result of its multi-task approach.

研究の動機と目的

多数のタスクを習得できる、単一でスケーラブルな強化学習エージェントを開発する。
データ効率や安定性を犠牲にせず、多数の機械にまたがる計算資源を効率的に活用できるようにする。
アクターと学習者間の遅延を扱うための原理的なオフポリシー補正を導入する。

提案手法

アクティングを学習から分離する IMPALA アーキテクチャを提案し、複数のアクターから軌跡を集中的な学習者へ送る。
挙動ポリシーとターゲットポリシーの間のポリシー遅延を補正するオフポリシー Actor-Critic アルゴリズムである V-trace を用いる。
分散学習者間で同期的なパラメータ更新と、学習者でのGPU加速ミニバッチ更新を活用する。
スループット最大化のため、アーキテクチャ的および TensorFlow ベースの最適化（例：time-folding、XLA、cuDNN）を適用する。
マルチタスクおよびシングルタスクのベンチマークで、2つのモデルアーキテクチャ（浅い LSTM と深い Residual Network）で評価する。

実験結果

リサーチクエスチョン

RQ11つのパラメータセットを持つ単一エージェントは、複数の多様なタスクを効率的に学習できるか。
RQ2アクターと学習者を分離することが、スケール時のデータスループットとデータ効率にどう影響するか。
RQ3V-trace は、アクターと学習者の遅延が変動する場合にも堅牢なオフポリシー補正を提供するか。
RQ4マルチタスク学習が、シングルタスク学習と比較してタスク間の転移に与える影響は何か。

主な発見

IMPALA は非常に高いデータスループットを達成し、最大で 250,000 frames per second に達し、単一マシンの A3C を 30 倍以上上回る。
IMPALA は A3C ベースのエージェントと比較してデータ効率とハイパーパラメータ耐性が向上している。
マルチタスク学習は、DMLab-30 でタスク固有の専門家と比較して正の転移と優れた性能を生む。
Atari-57 では、IMPALA（深層・マルチタスク）はエキスパートベースラインに近い性能を示し、中央値人間正規化スコア 59.7% を達成。
タスクをまたいで、V-trace は経験リプレイが使用される場合に特に、オフポリシー補正を伴う安定した学習を提供する。
Deep IMPALA with multi-task training converges faster and to higher accuracy than distributed A3C baselines.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。