QUICK REVIEW

[論文レビュー] Prioritized Sequence Experience Replay

Marc Brittain, Joshua R. Bertram|arXiv (Cornell University)|May 25, 2019

Reinforcement Learning in Robotics参考文献 22被引用数 33

ひとこと要約

論文は Prioritized Sequence Experience Replay (PSER) を紹介します。PER の拡張として、シーケンスを通じて優先度を伝搬させ学習を加速させ、PER より迅速な収束と Atari の性能改善を示します。著者は理論的に収束速度の利点を証明し、Blind Cliffwalk と Atari 2600 で経験的な利得を示します。

ABSTRACT

Experience replay is widely used in deep reinforcement learning algorithms and allows agents to remember and learn from experiences from the past. In an effort to learn more efficiently, researchers proposed prioritized experience replay (PER) which samples important transitions more frequently. In this paper, we propose Prioritized Sequence Experience Replay (PSER) a framework for prioritizing sequences of experience in an attempt to both learn more efficiently and to obtain better performance. We compare the performance of PER and PSER sampling techniques in a tabular Q-learning environment and in DQN on the Atari 2600 benchmark. We prove theoretically that PSER is guaranteed to converge faster than PER and empirically show PSER substantially improves upon PER.

研究の動機と目的

強化学習におけるデータ効率の高い学習を動機づけ、再生サンプリングの改善を通じてサンプル効率を向上させる。
PER を拡張し、時系列情報と前向きの優先度減衰を組み込み、学習信号を伝搬させる。
理論的な収束の洞察と合成・ベンチマーク環境での経験的検証を提供する。
PSER を使用した DQN による Atari 2600 のデータ効率と最終性能の実用的改善を示す。

提案手法

TD エラーに基づいて遷移に優先度を割り当て、エピソード内の以前の遷移へとこの優先度を減衰・伝搬させる、Prioritized Sequence Experience Replay (PSER) を定義する。
減衰係数 rho とウィンドウ W を用いたバックプロパゲーションによる優先度の二つの減衰スキーム（MAX と ADD）を正式化する。
優先度崩壊を防ぎ学習信号の伝搬を維持するための減衰保護パラメータ eta を導入する。
PSER を DQN フレームワークの上に適用し、Blind Cliffwalk および Atari 2600 のベンチマークで PER と比較する。
prior work に倣い、サンプリングバイアスを補正する重要度サンプリング重みを取り入れる（β パラメータ）。
Atari のいくつかのゲームで座標法によるハイパーパラメータ探索を用いて PSER のハイパーパラメータを調整し、一般化可能な結果を報告する。

実験結果

リサーチクエスチョン

RQ1PSER による TD-エラーベースの優先度を行動シーケンス全体に backward に伝搬させることで、標準 PER と比較して収束を速めるか。
RQ2減衰スキーム（MAX vs ADD）、初期優先度戦略（MaxPrio vs CurrentTD）、eta パラメータが PSER の性能と安定性にどう影響するか。
RQ3PSER は DQN を用いた Atari 2600 の標準ベンチマークで PER を上回る経験的な利得を提供できるか。
RQ4PER に対する PSER の収束速度に関する理論的保証は何か。

主な発見

サンプリング戦略	中央値	平均
PSER	109%	832%
PER	88%	607%

PSER は Atari 2600 ベ benchmark のゲームで PER に対して大幅に性能を改善する。
Blind Cliffwalk 環境では、後ろ向きの優先度減衰により PSER が PER より速く収束する。
no-ops 条件下で 55 アタリゲームで PSER は中央値 109%、平均 832% のスコアを達成、PER は中央値 88%、平均 607%。
理論的結果として、復元的な ρ の減衰を伴う Blind Cliffwalk 設定で PSER は PER より早く収束する。
アブレーション研究では MAX 減衰が一般に ADD 減衰よりも PSER で優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。