QUICK REVIEW

[論文レビュー] Differentiable MPC for End-to-end Planning and Control

Brandon Amos, Ivan Dario Jimenez Rodriguez|arXiv (Cornell University)|Oct 31, 2018

Reinforcement Learning in Robotics参考文献 54被引用数 145

ひとこと要約

本論文は、箱制約付き iLQR による MPC 固定点を微分することで微分可能な MPC を導入し、連続制御領域における模倣のためのコストとダイナミクスのエンドツーエンド学習を可能にする。データ効率の良い模倣と標準的なシステム同定に対する利点を示す。

ABSTRACT

We present foundations for using Model Predictive Control (MPC) as a differentiable policy class for reinforcement learning in continuous state and action spaces. This provides one way of leveraging and combining the advantages of model-free and model-based approaches. Specifically, we differentiate through MPC by using the KKT conditions of the convex approximation at a fixed point of the controller. Using this strategy, we are able to learn the cost and dynamics of a controller via end-to-end learning. Our experiments focus on imitation learning in the pendulum and cartpole domains, where we learn the cost and dynamics terms of an MPC policy class. We show that our MPC policies are significantly more data-efficient than a generic neural network and that our method is superior to traditional system identification in a setting where the expert is unrealizable.

研究の動機と目的

連続制御のためにモデルベースの MPC とエンドツーエンド学習を組み合わせる動機づけ。
iLQR に似た手順で解かれる箱制約付き MPC を微分する解析的手法を提案する。
専門家のデモンストレーションから MPC のコストとダイナミクスを学習することがニューラルネットよりデータ効率が良いことを示す。
振り子とカートポール領域での模倣学習の結果を示し、システム同定と比較する。

提案手法

MPC を箱制約を持つコスト C とダイナミクス f にパラメータ化した微分可能なモジュールとしてモデル化する。
追加のバックワードパスを用いて線形化した KKT 系を解くことにより、非凸 MPC ソルバーの固定点を微分する。
LQR から箱制約付きQPへの微分可能性を、KKT 条件の導関数を介して拡張する。
フォワードパスの因子分解を再利用して定数時間のバックワードパスを達成する固定点微分アプローチを用いる。
勾配ベースの最適化（模倣損失）を介したエンドツーエンド学習を示す実装と実験を提供する。
オープンソースのソルバーと実験（mpc.pytorch）をリリースする。

実験結果

リサーチクエスチョン

RQ1連続制御におけるエンドツーエンド学習のために、MPC を微分可能なポリシークラスとして利用できるか？
RQ2展開（アンローリング）ではなく固定点法を用いて箱制約付き MPC を効率的に微分することは可能か？
RQ3微分可能な MPC を用いたエンドツーエンド模倣は、専門家からのコストとダイナミクスをシステム同定よりも良く回復できるか？
RQ4連続制御の模倣におけるデータ効率の点で、微分可能な MPC はニューラルネットワークとどう比較されるか？
RQ5枠組みは実現不能な専門家に対処でき、学習のための有用な勾配を提供し得るか？

主な発見

微分可能な MPC は汎用ニューラルネットワークポリシーよりデータ効率の良い模倣をもたらす。
この手法は行動のみから MPC エキスパートのコストとダイナミクスを回復でき、非実現可能な設定では時にシステム識別と同等またはそれを上回る。
MPC ソルバの固定点微分は、展開微分よりメモリと計算効率が高く、前向きパスの因子が与えられた場合、バックワードパスは事実上無料である。
このアプローチはコストとダイナミクスのエンドツーエンド学習をサポートし、単純な状態予測を超えるタスク損失駆動の最適化を可能にする。
著者はオープンソース実装を提供しており、実用性と再現性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。