QUICK REVIEW

[論文レビュー] GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

Cédric Colas, Olivier Sigaud|arXiv (Cornell University)|Feb 14, 2018

Reinforcement Learning in Robotics参考文献 41被引用数 75

ひとこと要約

GEP-PG は Goal Exploration Processes を Deep Deterministic Policy Gradient と組み合わせて探索と活用を分離し、CMC と Half-Cheetah のベンチマークでサンプル効率、最終性能、および安定性を向上させます。

ABSTRACT

In continuous action domains, standard deep reinforcement learning algorithms like DDPG suffer from inefficient exploration when facing sparse or deceptive reward problems. Conversely, evolutionary and developmental methods focusing on exploration like Novelty Search, Quality-Diversity or Goal Exploration Processes explore more robustly but are less efficient at fine-tuning policies using gradient descent. In this paper, we present the GEP-PG approach, taking the best of both worlds by sequentially combining a Goal Exploration Process and two variants of DDPG. We study the learning performance of these components and their combination on a low dimensional deceptive reward problem and on the larger Half-Cheetah benchmark. We show that DDPG fails on the former and that GEP-PG improves over the best DDPG variant in both environments. Supplementary videos and discussion can be found at http://frama.link/gep_pg, the code at http://github.com/flowersteam/geppg.

研究の動機と目的

連続アクション強化学習における探索の課題を動機づけ、特に sparse あるいは欺瞞的な報酬への対処。
まずGoal Exploration Processes (GEP) で探索し、次にリプレイバッファベースの DDPG の変種で活用するという二段階フレームワークを提案する。
低次元（Continuous Mountain Car）および高次元（Half-Cheetah）ベンチマークで実証的に評価する。
最終性能、サンプル効率、および学習の変動性への影響を評価する。
Gep-PG フレームワークの堅牢性、限界、および潜在的な拡張について議論する。

提案手法

探索段階を Goal Exploration Processes を用いて多様な方策レパートリを生成する。
結果として得られる (theta, o) ペアをメモリに格納し、観測された結果に近い新しい方策をガウス摂動で生成する。
DDPG のリプレイバッファを GEP 生成サンプルで埋め、アクション摂動またはパラメータ摂動の DDPG 変種で学習する。
CMC および HC で標準的な DDPG 変種と比較し、性能、分散、サンプル効率を分析する。
複数の種とブートストラップ/統計検定を用いた標準化された評価方法を使用して有意性を評価する。
訓練中の最良ポリシーと最終的なパフォーマンス（最後の 100 評価エピソード）を報告する。

実験結果

リサーチクエスチョン

RQ1GEP による探索と活用の分離が、探索ノイズ付き DDPG と比較して連続アクション RL の学習を改善するか？
RQ2低次元の deceptive reward 問題（Continuous Mountain Car）と高次元のベンチマーク（Half-Cheetah）で GEP および Gep-PG はどう機能するか？
RQ3方策の複雑さとバッファの内容が Gep-PG の性能と安定性に与える影響は？
RQ4Gep-PG は DDPG の変種よりサンプル効率が高く、分散が少ないか？
RQ5開発的探索と深層 RL の組み合わせの潜在的な拡張と今後の方向性は？

主な発見

GEP 単独でも探索性が競合的で、CMC ベンチマークで DDPG 変種より優れる可能性がある。欺瞞的勾配の問題のため。
Half-Cheetah では Gep-PG は DDPG 変種に対して最終性能と分散で著しく上回り、当時の最先端に近い結果を達成。
アクション摺動を伴う DDPG はパラメータ摺動と比べて乖離することがある、特に欺瞞的または疎な報酬設定で。
DDPG のリプレイバッファを GEP 生成サンプルで埋めると、最初から訓練する場合よりサンプル効率、最終性能、変動性の低減が見られる。
GEP-PG の堅牢性は探索フェーズの Gep エピソード数の範囲で観察され、安定した性能向上を示す。
バッファ内の多様な軌道のセットは Gep-PG の性能と一般化と相関する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。