QUICK REVIEW

[論文レビュー] Curiosity-Driven Experience Prioritization via Density Estimation

Rui Zhao, Volker Tresp|arXiv (Cornell University)|Feb 20, 2019

Visual Attention and Saliency Detection参考文献 49被引用数 42

ひとこと要約

CDP は再生バッファの軌跡密度を変分ガウス混合モデルを用いて推定し、低密度（希少）達成目標軌跡を優先して、DDPG や DDPG+HER のようなオフポリシー RL 手法と組み合わせたときのサンプル効率と性能を向上させる。

ABSTRACT

In Reinforcement Learning (RL), an agent explores the environment and collects trajectories into the memory buffer for later learning. However, the collected trajectories can easily be imbalanced with respect to the achieved goal states. The problem of learning from imbalanced data is a well-known problem in supervised learning, but has not yet been thoroughly researched in RL. To address this problem, we propose a novel Curiosity-Driven Prioritization (CDP) framework to encourage the agent to over-sample those trajectories that have rare achieved goal states. The CDP framework mimics the human learning process and focuses more on relatively uncommon events. We evaluate our methods using the robotic environment provided by OpenAI Gym. The environment contains six robot manipulation tasks. In our experiments, we combined CDP with Deep Deterministic Policy Gradient (DDPG) with or without Hindsight Experience Replay (HER). The experimental results show that CDP improves both performance and sample-efficiency of reinforcement learning agents, compared to state-of-the-art methods.

研究の動機と目的

RLにおけるリプレイバッファのメモリ不均衡を、過小表現されている達成目標軌跡を優先することで動機づけ、対処する。
経験バッファ内のサンプリングをバランスさせる、好奇心にインスパイアされた優先度付けフレームワーク（CDP）を開発する。
CDP を DDPG や DDPG+HER などのオフポリシー RL アルゴリズムと組み合わせられるようにする。
TD誤差ではなく、密度推定を利用して優先リプレイを導く。
マルチタスクのロボット操作タスクにおいて、サンプル効率と最終性能の改善を実証する。

提案手法

各軌跡を、時間を跨るゴール状態の連結シーケンスとして表現する。
メモリバッファデータでトレーニングされた変分ガウス混合モデル（V-GMM）を用いて軌跡密度を推定する。
軌跡密度 rho とその補集合 bar{rho} = 1 - rho を計算して希少な軌跡を識別する。
bar{rho} の順位に基づいて軌跡をランク付けし、このランキングベースの確率に従ってサンプリングして、より頻度の低い軌跡をリプレイする。
CDP をオフポリシー RL アルゴリズム（例: DDPG, DDPG+HER）と統合し、各エポックごとに密度モデルを更新する。
任意で CDP を Prioritized Experience Replay (PER) と比較し、CDP の優れた時間計算量を示す。

実験結果

リサーチクエスチョン

RQ1CDP を取り入れることで、DDPG および DDPG+HER がマルチゴールのロボットタスクで性能とサンプル効率を改善しますか？
RQ2性能向上と計算効率の観点で、CDP は PER とどう比較されますか？
RQ3学習中の密度ベースの優先度付け（bar{rho}）と TD誤差の関係はどうなりますか？

主な発見

環境	DDPG_成功	DDPG_時間	DDPG+PER_成功	DDPG+PER_時間	DDPG+CDP_成功	DDPG+CDP_時間
Push	99.90%	5.52h	99.94%	30.66h	99.96%	6.76h
Pick & Place	39.34%	5.61h	67.19%	25.73h	76.02%	6.92h
Slide	75.67%	5.47h	66.33%	25.85h	76.77%	6.66h
Egg	76.19%	7.33h	75.46%	79.86h	81.30%	17.00h
Block	20.32%	8.47h	18.95%	80.72h	25.00%	19.88h
Pen	27.28%	7.55h	27.74%	81.17h	31.88%	25.36h

CDP は6つのロボットタスク全体で収束を加速し、ベースラインや PER より高い最終成功率を達成します。
CDP は6環境全体で平均して約2倍のサンプル効率を向上させます。
CDP はトレーニング時間で PER より著しく高速（CDP はベースラインと PER の間程度; PER ははるかに遅い）で、同等またはそれ以上の性能を実現します。
ベースラインより最終性能の平均改善は約9.15パーセンテージポイントです。
補集合密度 bar{rho} と TD誤差の間には正の相関がある（平均 Pearson の r ≈ 0.7）、希少な軌跡が学習にとってより価値が高い傾向を示しています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。