QUICK REVIEW

[論文レビュー] Distributed Prioritized Experience Replay

Dan Horgan, John Quan|arXiv (Cornell University)|Mar 2, 2018

Reinforcement Learning in Robotics参考文献 25被引用数 411

ひとこと要約

この論文は Ape-X を紹介する。 acted から learning を分離し、集中優先度付き経験リプレイを用いて深層強化学習をスケールさせ、Atari の最先端結果と連続制御の強力な性能を達成する。

ABSTRACT

We propose a distributed architecture for deep reinforcement learning at scale, that enables agents to learn effectively from orders of magnitude more data than previously possible. The algorithm decouples acting from learning: the actors interact with their own instances of the environment by selecting actions according to a shared neural network, and accumulate the resulting experience in a shared experience replay memory; the learner replays samples of experience and updates the neural network. The architecture relies on prioritized experience replay to focus only on the most significant data generated by the actors. Our architecture substantially improves the state of the art on the Arcade Learning Environment, achieving better final performance in a fraction of the wall-clock training time.

研究の動機と目的

データ生成を増やし選択的経験リプレイで深層強化学習をスケールさせる動機付け。
actingと learning を分離し、集中リプレイを優先度付きで使用する分散アーキテクチャを提案。
Atari および連続制御ベンチマークでスケーラビリティと性能向上を実証。
リプレイ容量、新しさ、ポリシー多様性など、スケーラビリティに影響を与える要因を分析。

提案手法

複数のアクターが並行して経験を収集し、1つの学習者がネットワークパラメータを更新する Ape-X アーキテクチャを導入。
情報豊富な経験をサンプリングするための、比例的優先度付きの集中リプレイメモリを使用。
遅延を回避するため、アクター側でオンライン優先度計算。
DQN の変種（ダブルQ学習、マルチステップリターン、デュエリングネットワーク）と DDPG（Ape-X DPG）を用いたオフポリシー学習を適用。
アクターは定期的に学習者から最新パラメータを取得。学習更新と優先度更新は非同期に実行。
Atari を 360 アクターで、DeepMind Control Suite の連続制御タスクで評価。
アクター数、リプレイ容量、最近性、データ生成ポリシーを変化させたスケーラビリティ分析を報告。

実験結果

リサーチクエスチョン

RQ1データ生成を学習から分離し、優先度付きリプレイを用いる分散アーキテクチャは、サンプル効率と最終性能を深層強化学習で改善できるか。
RQ2データ生成アクター数、リプレイメモリ容量、ポリシー多様性は、離散制御および連続制御タスクのスケーリングと性能にどのように影響するか。
RQ3アクター側でのオンライン優先度計算はデータ生成を遅らせることなくスケーラビリティを支援できるか。
RQ4 Ape-X は Atari で最先端の結果を達成し、個別ゲームのハイパーパラメータ調整なしに連続制御ベンチマークでも競争力のある性能を示せるか。

主な発見

Algorithm	Training	Environment	Resources	Median	Median
Ape-X DQN	5 days	22800M	376 cores, 1 GPU a	434%	358%
Rainbow	10 days	200M	1 GPU	223%	153%
Distributional (C51)	10 days	200M	1 GPU	178%	125%
A3C	4 days	—	16 cores	—	117%
Prioritized Dueling	9.5 days	200M	1 GPU	172%	115%
DQN	9.5 days	200M	1 GPU	79%	68%
Gorila DQN c	~4 days	—	unknown b	96%	78%
UNREAL d	—	250M	16 cores	331% d	250% d

Ape-X は 57 台の Atari ゲームでメディアン人間正規化スコアの最先端を達成し、ベースラインよりも壁時計での学習が速く、最終性能も高い。
アクター数を増やすことで Atari での性能が一貫して向上： learner 更新を固定したまま 8 から 256 アクターへ。
より大きなリプレイメモリ容量は、時間をかけて高優先度の経験を保持する利点を示し、限られた利益をもたらす場合がある。
優先度付きリプレイと多様な行動ポリシーを多数のアクターにまたがって組み合わせることで探索が促進され、過剰適合を回避し、性能が向上する。
Ape-X DQN はダブルQ学習、マルチステップリターン、デュエリングネットワークを組み合わせて Atari で強い性能を示す。Ape-X DPG は連続制御へ拡張し、タスク間で競争力のある結果を示す。
連続制御ではアクター数を増やすことで急速な学習と最終性能が標準的な DDPG のベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。