[論文レビュー] The Reactor: A fast and sample-efficient Actor-Critic agent for Reinforcement Learning
Reactorは、分布的Retraceを用いた多ステップ非政策的分布的学習、分散を低減するための新しい$β$-LOO方策勾配、および時間的局所性を利用した優先順位付きリプレイを組み合わせた、強化学習の高速かつサンプル効率の良いアクタ・クリティックエージェントです。20000万フレーム未満の訓練で57種類のAtari 2600ゲームで最先端の性能を達成し、Rainbow や A3C よりもサンプル効率および時間効率で優れています。
In this work we present a new agent architecture, called Reactor, which combines multiple algorithmic and architectural contributions to produce an agent with higher sample-efficiency than Prioritized Dueling DQN (Wang et al., 2016) and Categorical DQN (Bellemare et al., 2017), while giving better run-time performance than A3C (Mnih et al., 2016). Our first contribution is a new policy evaluation algorithm called Distributional Retrace, which brings multi-step off-policy updates to the distributional reinforcement learning setting. The same approach can be used to convert several classes of multi-step policy evaluation algorithms designed for expected value evaluation into distributional ones. Next, we introduce the \\b{eta}-leave-one-out policy gradient algorithm which improves the trade-off between variance and bias by using action values as a baseline. Our final algorithmic contribution is a new prioritized replay algorithm for sequences, which exploits the temporal locality of neighboring observations for more efficient replay prioritization. Using the Atari 2600 benchmarks, we show that each of these innovations contribute to both the sample efficiency and final agent performance. Finally, we demonstrate that Reactor reaches state-of-the-art performance after 200 million frames and less than a day of training.
研究の動機と目的
- 高いサンプル効率と短いウォールクロック時間でのトレーニングを達成する強化学習エージェントの開発。
- 非政策的で多ステップかつ分布的学習を深層アクタ・クリティックフレームワークに統合すること。
- 方策勾配推定の分散を低減するため、行動価値推定値をベースラインとして使用することによる性能向上。
- 遷移の系列における時間的局所性を活用する新しい優先順位付きリプレイメカニズムの設計。
- 最小限のトレーニング時間とサンプル複雑性で、Atari 2600ベンチマークで最先端のパフォーマンスを示すこと。
提案手法
- 分布的Retrace($\lambda$)を導入し、Retraceを分布的強化学習に拡張した多ステップ非政策的アルゴリズム。
- $β$-LOO(1つを除く)方策勾配法を提案。行動価値推定値をベースラインとして使用し、方策勾配推定の分散を低減。
- 時間的近接性とリターン推定値に基づき、遷移を優先順位付けする文脈的優先順位付きリプレイメカニズムを開発。
- 価値とアドバンテージ推定のための別々のヘッドを備えた深層ニューラルネットワークアーキテクチャを採用。ターゲットネットワークと経験リプレイを併用。
- 複数のアクターによる非同期トレーニングとパラメータサーバーを用いて、高いトレーニングスループットと短いウォールクロック時間を達成。
- 非政策的リターン推定にRetraceを適用し、ターゲット方策とは異なる行動方策から収集した経験でも安定したトレーニングを可能に。
実験結果
リサーチクエスチョン
- RQ1分布的強化学習エージェントは、高いサンプル効率と短いウォールクロック時間の両方を達成できるか?
- RQ2方策勾配推定において行動価値推定値をベースラインとして使用することは、分散とパフォーマンスにどのように影響するか?
- RQ3リプレイの優先順位付けにおいて時間的局所性を活用することは、逐次的意思決定タスクにおけるサンプル効率をどの程度向上させるか?
- RQ4非政策的学習と分布的リターンを備えたハイブリッドアクタ・クリティックアーキテクチャは、既存の最先端エージェントをAtari 2600で上回れるか?
- RQ5Reactorアーキテクチャの個々の構成要素は、サンプル効率およびトレーニング速度という観点から、最終的なパフォーマンスにどの程度寄与しているか?
主な発見
- 20000万フレームのトレーニング後、57種類のAtari 2600ゲームで平均人間正規化スコア1.65、平均順位4.58を達成。Rainbow や A3C を含むすべての先行手法を上回った。
- 50000万フレームと4日間のトレーニングで、平均人間正規化スコア1.82、平均順位3.65に到達。ノーオプションスタート設定でもRainbowを上回った。
- ランダムな人間スタートで評価した際、分布的バージョンのReactorは非分布的バージョンよりも一般化性能に優れており、より高いロバストネスを示した。
- $β$-LOO方策勾配は、TISLRベースラインと比較して最終パフォーマンスおよび安定性の両面で顕著に優れていた。
- 優先順位付きリプレイが最も大きな効果を示したが、すべての構成要素(分布的Retrace、$β$-LOO、文脈的リプレイ)がサンプル効率および最終パフォーマンスに有意義に寄与した。
- Reactorは1日未満のトレーニングで最先端のパフォーマンスを達成し、DQN や Rainbow よりも著しく時間効率に優れていることを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。