Skip to main content
QUICK REVIEW

[論文レビュー] PBCS : Efficient Exploration and Exploitation Using a Synergy between Reinforcement Learning and Motion Planning

Guillaume Matheron, Nicolas Perrin|arXiv (Cornell University)|Apr 24, 2020
Reinforcement Learning in Robotics参考文献 45被引用数 15
ひとこと要約

PBCS は、バックプレイとスキルチェーンを用いて運動計画と課程学習を統合することで、連続制御における困難な探索問題を解決する新しい強化学習アルゴリズムです。まず運動計画により軌道を特定し、その後 DDPG とスキルチェーンを用いた決定的バックプレイの変種を適用することで、PBCS は 2D 迷路環境において DDPG や TD3 を上回り、標準的な RL が失敗する 15×15 セルまでの迷路を正常に解けるようになります。

ABSTRACT

The exploration-exploitation trade-off is at the heart of reinforcement learning (RL). However, most continuous control benchmarks used in recent RL research only require local exploration. This led to the development of algorithms that have basic exploration capabilities, and behave poorly in benchmarks that require more versatile exploration. For instance, as demonstrated in our empirical study, state-of-the-art RL algorithms such as DDPG and TD3 are unable to steer a point mass in even small 2D mazes. In this paper, we propose a new algorithm called "Plan, Backplay, Chain Skills" (PBCS) that combines motion planning and reinforcement learning to solve hard exploration environments. In a first phase, a motion planning algorithm is used to find a single good trajectory, then an RL algorithm is trained using a curriculum derived from the trajectory, by combining a variant of the Backplay algorithm and skill chaining. We show that this method outperforms state-of-the-art RL algorithms in 2D maze environments of various sizes, and is able to improve on the trajectory obtained by the motion planning phase.

研究の動機と目的

  • 連続制御環境における報酬が疎で次元が高い探索課題に対処すること。
  • 非局所的探索を必要とする迷路では失敗する標準的な RL アルゴリズム(DDPG や TD3)の限界を克服すること。
  • 運動計画による初期軌道の発見と RL によるポリシーの頑健化を組み合わせたハイブリッド手法を開発すること。
  • 長時間スパンの探索タスクにおける訓練の安定性と成功確率を向上させるスキルチェーン機構を導入すること。
  • 決定的バックプレイと報酬形状の統合により、Go-Explore フレームワークを連続制御に拡張すること。

提案手法

  • まず、2D 迷路においてスタートからゴールまでの単一の実行可能軌道 τ を運動計画アルゴリズム(例:RRT)を用いて特定する。
  • τ の終端から始まり、軌道に沿って順次後退するように、決定的バックプレイの変種を適用し、カリキュラムエピソードを生成する。
  • L2 距離に基づく報酬形状を用い、DDPG を訓練する。ポテンシャル関数 Φ(s) = 1/d(s, Ai) を用いて探索を誘導する。
  • 各段階で成功したポリシーを保存し、バックプレイに失敗した場合に残りのセグメントに対して再帰的に訓練するスキルチェーン機構を採用する。
  • 訓練プロセスでは、ソース状態 τK の周囲にバッファ Bϵ(τK) を用いて頑健な初期化を可能にし、β エピソードで 100% のパフォーマンスに達するまで継続する。
  • 報酬形状により、報酬が疎な環境報酬を、ターゲットへの近接度に基づく密集型の代理報酬に置き換えることで、サンプル効率を向上させる。

実験結果

リサーチクエスチョン

  • RQ1運動計画と強化学習を統合したハイブリッド手法は、標準的な RL アルゴリズムが失敗する連続制御環境における困難な探索問題を解決できるか?
  • RQ2DDPG と組み合わせた決定的バックプレイは、PPO と組み合わせた確率的バックプレイに比べ、連続的迷路における安定性と成功確率で優れているか?
  • RQ3スキルチェーンは、長時間スパンの探索タスクにおける訓練の安定性と成功確率をどの程度向上させるか?
  • RQ4距離ポテンシャルに基づく報酬形状は、報酬が疎な環境でのサンプル効率と収束性を改善するか?
  • RQ5運動計画、バックプレイ、スキルチェーンの組み合わせにより、より大規模かつ複雑な迷路への一般化が可能か?

主な発見

  • 標準的な DDPG や TD3 アルゴリズムは 2×2 を超える迷路を解くことに失敗し、報酬が疎な状況下での探索能力の低さが示された。
  • スキルチェーンを含まない PBCS は、長時間の訓練中に DDPG の不安定性が原因で 2×2 を超える迷路を解くことに失敗した。
  • スキルチェーンを含む完全な PBCS アルゴリズムは、7×7 および 15×15 の迷路を正常に解き、15×15 迷路で複数の中間スキルをチェーンすることで 100% の成功率を達成した。
  • スキルチェーンを用いた PBCS は、ベースラインの DDPG よりもはるかに少ない環境ステップ数で学習を完了した。15×15 迷路では 372k ステップで、標準的な DDPG では 500万ステップを要した。
  • ポテンシャル関数を用いた報酬形状により、訓練の収束性が向上し、初期状態が障害物に近い場合でも信頼性の高いポリシー学習が可能になった。
  • 初期状態分布に対して頑健であることが示された。訓練は正確な状態 τK ではなく、バッファ Bϵ(τK) から開始されたため。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。