[論文レビュー] Diversity-based Trajectory and Goal Selection with Hindsight Experience Replay
本稿では、達成されたゴール状態の多様性に基づいてトラジェクトリを優先順位付けし、後向き再ラベリングのための多様なゴール状態をk-DPPを用いて選択することで、ゴール指向強化学習におけるサンプル効率を向上させる、多様性に基づくトラジェクトリおよびゴール選択手法(DTGSH)を提案する。DPPを用いた多様性の高いトラジェクトリ選択と、k-DPPを用いた多様なゴール選択により、ドメイン固有の知識やカリキュラムチューニングを必要とせず、HER、HEBP、CHERといった最先端手法よりも高速な収束と高い最終的性能を達成した。
Hindsight experience replay (HER) is a goal relabelling technique typically used with off-policy deep reinforcement learning algorithms to solve goal-oriented tasks; it is well suited to robotic manipulation tasks that deliver only sparse rewards. In HER, both trajectories and transitions are sampled uniformly for training. However, not all of the agent's experiences contribute equally to training, and so naive uniform sampling may lead to inefficient learning. In this paper, we propose diversity-based trajectory and goal selection with HER (DTGSH). Firstly, trajectories are sampled according to the diversity of the goal states as modelled by determinantal point processes (DPPs). Secondly, transitions with diverse goal states are selected from the trajectories by using k-DPPs. We evaluate DTGSH on five challenging robotic manipulation tasks in simulated robot environments, where we show that our method can learn more quickly and reach higher performance than other state-of-the-art approaches on all tasks.
研究の動機と目的
- 後向き経験再利用(HER)における均一なサンプリングの非効率性を是正する。ここでは、すべての経験が学習に同等に寄与するわけではない。
- 特にロボット操作タスクにおいて、スパース報酬設定下でのゴール指向ディープ強化学習の学習効率を向上させること。
- ドメイン固有の知識やカリキュラム設計に依存せずに、多様なトラジェクトリとゴールを効果的に選択する手法を開発すること。
- DPPを用いた多様性ベースのサンプリングが、均一またはヒューリスティックなサンプリング戦略よりも収束が速く、性能が優れていることを実証すること。
提案手法
- 達成ゴール状態の多様性に基づいて、ゴール埋め込みから導出されるカーネル行列を用いた行列式点プロセス(DPP)を用いて、リプレイ用のトラジェクトリを選択する。
- 選択されたトラジェクトリ内では、k-DPPを用いて遷移をサンプリングし、後向き再ラベリングされた遷移のゴール状態の多様性を保証する。
- DDPGなどのオフポリシー強化学習アルゴリズムと統合し、目的ゴールを達成ゴールに置き換えることで、密度の高い正の報酬を生成する後向き再ラベリングを実装する。
- DPPカーネル行列は、ゴール状態の特徴ベクトルから構築され、高い行列式値はより多様で直交するゴール集合を示す。
- ゴール空間の意味的知識や手動によるカリキュラム設計に依存せず、ゴール状態の幾何学的多様性にのみ依存する。
- 訓練中、m個の多様なトラジェクトリをDPPに基づく優先順位でサンプリングし、各ミニバッチでそれらからk個の多様な遷移をk-DPPを用いて選択する。
実験結果
リサーチクエスチョン
- RQ1DPPを用いた多様性ベースのトラジェクトリ選択は、スパース報酬設定下のゴール指向強化学習における学習効率を向上させることができるか?
- RQ2後向き再ラベリングのための多様なゴール状態の選択は、均一または距離に基づくサンプリングと比較して、収束が速く、性能が優れているか?
- RQ3ゴール状態の多様性にのみ依存する手法は、ゴール空間の意味的知識やカリキュラムハイパーパramータを必要とする手法を上回ることができるか?
- RQ4異なるトラジェクトリサンプリング長さと候補ゴール集合サイズにおいて、DTGSHの性能はどのように変化するか?
主な発見
- FetchPush-v1では、DTGSHが最終平均成功確率1.00±0.00を達成し、DDPG+HER(1.00±0.00)、DDPG+HEBP(1.00±0.00)、DDPG+CHER(1.00±0.00)を上回り、収束が速かった。
- FetchPickAndPlace-v1では、DTGSHが成功確率0.94±0.01を達成し、DDPG+HER(0.89±0.03)、DDPG+HEBP(0.91±0.03)、DDPG+CHER(0.91±0.04)を上回った。
- より複雑なHandManipulateEggFull-v0環境では、DTGSHが0.17±0.03の成功確率を達成し、DDPG+HER(0.11±0.01)、DDPG+HEBP(0.14±0.02)、DDPG+CHER(0.15±0.01)を上回った。
- アブレーションスタディにより、多様性ベースのトラジェクトリ選択(DTSH)と多様性ベースのゴール選択(DGSH)の両方が顕著な貢献を示し、両方を組み合わせたDTGSHが最良の性能を示した。
- ハイパーパramータの選択に対して頑健であり、b=2(部分的トラジェクトリ長さ)とm=100(候補ゴール集合サイズ)で最適な性能を達成したが、複雑な環境ではmを大きくすると性能が低下した。
- PushタスクにおけるDTGSHの訓練時間は1時間52分30秒であり、CHER(3時間2分18秒)より著しく速く、HER(55分8秒)よりわずかに遅かった。これは、効率と性能の間で良好なトレードオフを実現していることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。