[論文レビュー] Exploring Model-based Planning with Policy Networks
POPLIN はモデルベースの方策計画を導入し、神経ネットワークを用いて行動系列または方策パラメータを最適化し、パラメータ空間での計画とポリシー網の初期化により MuJoCo タスクで最先端のサンプル効率を達成します。
Model-based reinforcement learning (MBRL) with model-predictive control or online planning has shown great potential for locomotion control tasks in terms of both sample efficiency and asymptotic performance. Despite their initial successes, the existing planning methods search from candidate sequences randomly generated in the action space, which is inefficient in complex high-dimensional environments. In this paper, we propose a novel MBRL algorithm, model-based policy planning (POPLIN), that combines policy networks with online planning. More specifically, we formulate action planning at each time-step as an optimization problem using neural networks. We experiment with both optimization w.r.t. the action sequences initialized from the policy network, and also online optimization directly w.r.t. the parameters of the policy network. We show that POPLIN obtains state-of-the-art performance in the MuJoCo benchmarking environments, being about 3x more sample efficient than the state-of-the-art algorithms, such as PETS, TD3 and SAC. To explain the effectiveness of our algorithm, we show that the optimization surface in parameter space is smoother than in action space. Further more, we found the distilled policy network can be effectively applied without the expansive model predictive control during test time for some environments such as Cheetah. Code is released in https://github.com/WilsonWangTHU/POPLIN.
研究の動機と目的
- 高次元の移動タスクにおけるモデルベース強化学習のサンプル効率向上を動機づける。
- オンライン計画の良い提案を生成するために方策ネットワークを用いる計画フレームワークを提案する。
- 方策パラメータ空間での計画がより滑らかな最適化曲面とより良い探索効率をもたらすことを示す。
- MuJoCo ベンチマークで最先端の性能を実証し、顕著なサンプル効率の改善を示す。
提案手法
- 各時刻ステップでの計画を、行動系列または方策パラメータのいずれかの最適化として定義する。
- POPLIN-A: 方策ネットワークを用いて行動系列を提案し、行動スペースでのクロスエントロピ法(CEM)で洗練させる。
- POPLIN-P: ネットワークパラメータを摂動して得られる方策を評価することにより、方策パラメータ空間で計画を実行する。
- 二つの蒸留経路: 方策蒸留(BC、GAN)と、AVG ベースの更新を用いて計画経験を蓄積する。
- MPC-Ready 制御(計画して最初の行動を実行)と直接方策制御(方策出力を実行)を比較する。
- 最適化曲面の滑らかさとパラメータ空間計画の利点に関する実証分析を提供する。
実験結果
リサーチクエスチョン
- RQ1オンライン計画と方策ネットワークを統合することで、PETS のような従来のランダムショット MPC 手法よりサンプル効率を改善できるか?
- RQ2最適化の滑らかさのため、行動スペースのノイズとは対照的に方策パラメータ空間での計画がより容易になるか?
- RQ3さまざまな方策蒸留戦略が終端タスクの性能とリアルタイム制御の実行可能性にどう影響するか?
主な発見
- POPLIN は MuJoCo ベンチマークで最先端の性能を達成し、PETS、TD3、SAC より約3倍のサンプル効率を達成します。
- パラメータ空間での計画(POPLIN-P)は、行動空間での計画より滑らかな最適化曲面を生み出し、より効果的な探索を可能にします。
- 蒸留された方策ネットワークは、いくつかの環境(例: Cheetah)ではオンライン計画を大規模に行わなくてもテスト時に良好に機能します。
- POPLIN-A は単純なタスク(Pendulum、Cart-pole、Swimmer)で優れているが、より複雑なタスク(Ant、Cheetah、Hopper)では POPLIN-P より有利でない。
- POPLIN-P の派生形(Uni、Sep、Avg、GAN、BC)は環境ごとに異なる強みを示し、計画効率では POPLIN-P-Sep がしばしば POPLIN-P-Uni を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。