[論文レビュー] Combining Model-Based and Model-Free Updates for Trajectory-Centric Reinforcement Learning
PILQR は、モデルベースの LQR-FLM 更新をモデルフリーの PI 2 更新と統合し、軌道中心のポリシーを実現することで、データ効率の良い学習と GPS を介したニューラルネットワークの実世界ロボットとシミュレーションの両方での効果的な訓練を可能にする。
Reinforcement learning (RL) algorithms for real-world robotic applications need a data-efficient learning process and the ability to handle complex, unknown dynamical systems. These requirements are handled well by model-based and model-free RL approaches, respectively. In this work, we aim to combine the advantages of these two types of methods in a principled manner. By focusing on time-varying linear-Gaussian policies, we enable a model-based algorithm based on the linear quadratic regulator (LQR) that can be integrated into the model-free framework of path integral policy improvement (PI2). We can further combine our method with guided policy search (GPS) to train arbitrary parameterized policies such as deep neural networks. Our simulation and real-world experiments demonstrate that this method can solve challenging manipulation tasks with comparable or better performance than model-free methods while maintaining the sample efficiency of model-based methods. A video presenting our results is available at https://sites.google.com/site/icml17pilqr
研究の動機と目的
- 未知のダイナミクスを持つ実世界のロボットに対して、データ効率の良い強化学習を動機づける。
- 時変線形ガウシアンポリシーを活用して、高速なモデルベース更新を可能にする。
- 単一の軌道中心フレームワーク内で、モデルベースの更新とモデルフリーの修正を組み合わせる。
- PILQR をガイド付きポリシーサーチに統合して、汎用的なニューラルネットワークポリシーを訓練する。
- シミュレーションタスクと実世界のロボット操作タスクの双方で有効性を示す。
提案手法
- ダイナミクス p(x_{t+1}|x_t,u_t) をガウス分布としてモデル化し、時変線形ガウシアン (TVLG) ポリシー p(u_t|x_t) を用いる。
- 局所二次コスト近似を用いた KL 制約付きの二次更新を行うよう、フィットされた線形モデルを用いた LQR-FLM を拡張する。
- コスト読み S と軌道のソフトマックス再重み付けにより駆動される、モデルフリーで KL 制約付きの更新として Path Integral policy improvement (PI 2) を採用する。
- 2 段階の PI 2 更新を導入する:最初はモデルベースのコスト近似で更新し、次に残差コストを PI 2 を用いて更新する。
- PI 2 更新をモデルベース近似 hat{S} と残差 tilde{S} に分解し、式 (5)–(6) の順に逐次更新を実行する。
- 2 段階の PILQR アルゴリズム (Algorithm 1) を組み込む:軌道を生成し、TVLG ダイナミクスをフィットし、hat{c} と tilde{c} を計算し、KL ステップ epsilon_t を調整し、eta_t を計算し、hat{c} に対して LQR-FLM を実行し、次に tilde{c} に対して PI 2 を実行する。)
実験結果
リサーチクエスチョン
- RQ1PILQR は軌道中心のタスクで、モデルベースまたはモデルフリーのベースラインよりも最終的な性能とサンプル効率を改善しますか?
- RQ2PILQR は GPS によって高次元のニューラルネットワークポリシーを、モデルベース手法と同程度のサンプル効率で訓練できますか?
- RQ3PILQR はシミュレーションと実機のロボットプラットフォームの両方で、不連続なダイナミクスを伴う複雑な操作タスクを解決することができますか?
- RQ4LQR-FLM 更新と PI 2 修正を組み合わせると、学習の安定性と収束性にどのような影響がありますか?
主な発見
- PILQR はシミュレーションにおける難易度の高いグリッパー押しとドア開けタスクで LQR-FLM および PI 2 を上回り、すべての条件を約 400 エピソードで解決した。
- MDGPS は PILQR を用い、深層 RL のベースラインと同等の性能を達成するニューラルネットワークポリシーを訓練する一方で、特定のタスクでサンプル数を大幅に減らす。
- 実機ロボットのホッケーおよび電源プラグ挿入タスクでは、デモーションなしで素子から頑健なポリシーを1時間未満の経験で学習する。
- PILQR はホッケーで複数の目標位置に対してニューラルネットワークポリシーを一般化させ、さまざまなターゲットに対して 90% の成功率を達成する。
- PI 2 のみが苦戦する場所で最も有利に成功を示し、単独の LQR-FLM が不連続なダイナミクスを伴うタスクで失敗する一方で、ハイブリッドアプローチの利点を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。