[論文レビュー] Combining Model-Based and Model-Free Updates for Trajectory-Centric Reinforcement Learning
PILQR はモデルベースの LQR-FLM 更新とモデルフリーの PI 2 更新を組み合わせて、軌道中心の TVLG ポリシーを実現し、データ効率が高く、ロボット操作タスクの難関で高い性能を発揮する。実世界のホッケーとプラグ挿入を含む。
Reinforcement learning (RL) algorithms for real-world robotic applications need a data-efficient learning process and the ability to handle complex, unknown dynamical systems. These requirements are handled well by model-based and model-free RL approaches, respectively. In this work, we aim to combine the advantages of these two types of methods in a principled manner. By focusing on time-varying linear-Gaussian policies, we enable a model-based algorithm based on the linear quadratic regulator (LQR) that can be integrated into the model-free framework of path integral policy improvement (PI2). We can further combine our method with guided policy search (GPS) to train arbitrary parameterized policies such as deep neural networks. Our simulation and real-world experiments demonstrate that this method can solve challenging manipulation tasks with comparable or better performance than model-free methods while maintaining the sample efficiency of model-based methods. A video presenting our results is available at https://sites.google.com/site/icml17pilqr
研究の動機と目的
- 未知のダイナミクスを持つロボットのデータ効率的な学習を促進するため、モデルベースとモデルフリーの強みを組み合わせる。
- 軌道中心の枠組みの中で、時間変化線形ガウス(TVLG)ポリシーを最適化する手法を開発する。
- ガイド付きポリシー探索を通じて、汎用のパラメータ化ポリシー(例:ニューラルネットワーク)を訓練可能にする。
- 残差コストに対する補正的なモデルフリー更新を行う実用的なアルゴリズム(PILQR)を提供する。
- シミュレーションと実機のロボット操作タスクでサンプル効率の良い学習を実証する。
提案手法
- TVLG ポリシー p(u_t|x_t) を、局所的な線形ガウス動力学モデルに適合させた(LQR-FLM)を用いて、モデルベースの更新を行う。
- PI 2 更新をKL発散制約で包み込み、安定でサンプルベースの改善を保証する。
- コストを二次のモデルベース近似と残差に分解し、近似にはLQR-FLM、残差にはPI 2を適用する(二段階更新)。
- 残差とサンプルコストの比に基づいて温度とKLステップサイズを適応的に更新し、モデルベースとモデルフリーのステップのバランスを取る。
- PILQR を GPS/MDGPS フレームワークに統合し、まず局所TVLGコントローラを学習し、その後グローバルポリシーの教師あり訓練によって深層ニューラルネットワークポリシーを訓練する。
- 実用的なアルゴリズム(アルゴリズム1)を提供し、残差処理とサンプル再利用を含む、逐次的なLQR-FLMとPI 2更新を詳述する。
実験結果
リサーチクエスチョン
- RQ1軌道中心のハイブリッドRL手法は、ダイナミクスの不一致に対するモデルフリーの頑健性を維持しつつ、モデルベースのサンプル効率を達成できるか?
- RQ2TVLG ポリシーは、難しい操作タスクにおいてLQR-FLMとPI 2更新の効果的な統合を可能にするか?
- RQ3PILQRは、ガイド付きポリシー探索を介して高次元ポリシー(例:ニューラルネットワーク)を訓練し、強い実世界での性能を発揮できるか?
- RQ4離散的なダイナミクスや正確な操作要件を伴うタスクにおいて、PILQRは純粋なモデルベース法またはモデルフリー法と比較してどのように性能を発揮するか?
主な発見
- 難易度の高いグリッパープッシャーとドア開閉タスクで、PILQRはLQR-FLMおよびPI 2を上回り、約400エピソード程度で全条件を解決した。
- PILQR付きMDGPSはニューラルネットワークポリシーを訓練し、TRPO/DDPGよりはるかに少ないサンプルで競争力のある最終性能に到達する。
- リーチャータスクでは、PILQRとLQR-FLMがDDPG/TRPOよりサンプル効率が高く、DDPG/TRPOはサンプルを何倍も多く必要とする。
- 実機ホッケーと電源プラグタスクでは、PI 2や純粋なLQR-FLMが苦戦する場面でPILQRが堅牢な成功を達成し、経験が1時間未満でデモなし。
- このアプローチは、ホッケーの複数のゴール位置にわたって一般化するニューラルポリシーの訓練を可能にし、変動するターゲットで90%の成功を達成する。
- 実機のプラグタスクでは、PILQRは一貫してプラグを挿入するのに対し、他の方法は失敗するかデモを必要とする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。