QUICK REVIEW

[論文レビュー] Pontryagin Differentiable Programming: An End-to-End Learning and Control Framework

Wanxin Jin, Zhaoran Wang|arXiv (Cornell University)|Dec 30, 2019

Advanced Control Systems Optimization被引用数 29

ひとこと要約

この論文は、Pontryaginの最大原理を微分可能にすることで、最適制御系における力学系、ポリシー、制御目的の統合的学習を可能にする統一的エンドツーエンドフレームワークPontryagin Differentiable Programming (PDP) を紹介する。補助後向き制御系を導入することで、パラメータに関して軌道の解析的勾配を計算し、四脚クアッドローターやロケットの軟着陸など、高次元系における逆強化学習、システム同定、制御計画のタスクにおいて、効率的な学習を可能にする。

ABSTRACT

This paper develops a Pontryagin Differentiable Programming (PDP) methodology, which establishes a unified framework to solve a broad class of learning and control tasks. The PDP distinguishes from existing methods by two novel techniques: first, we differentiate through Pontryagin's Maximum Principle, and this allows to obtain the analytical derivative of a trajectory with respect to tunable parameters within an optimal control system, enabling end-to-end learning of dynamics, policies, or/and control objective functions; and second, we propose an auxiliary control system in the backward pass of the PDP framework, and the output of this auxiliary control system is the analytical derivative of the original system's trajectory with respect to the parameters, which can be iteratively solved using standard control tools. We investigate three learning modes of the PDP: inverse reinforcement learning, system identification, and control/planning. We demonstrate the capability of the PDP in each learning mode on different high-dimensional systems, including multi-link robot arm, 6-DoF maneuvering quadrotor, and 6-DoF rocket powered landing.

研究の動機と目的

高次元系における力学系、ポリシー、制御目的の統合的学習を、統一的フレームワークで実現すること。
既存手法のデータ効率性およびシステム同定・逆学習における長期予測精度の制限を克服すること。
最適制御理論と微分可能な学習を統合し、保証付きで説明可能なモデルを用いたエンドツーエンド学習を可能にすること。
1つの微分可能なフレームワークを用いて、未知のシステム要因（力学系、ポリシー、コスト関数）を同時に最適化できること。
モデルベース強化学習および逆最適制御の両方をサポートするスケーラブルで微分可能なアーキテクチャを提供すること。

提案手法

Pontryaginの最大原理（PMP）を微分することで、システムパラメータに関して最適軌道の勾配を解析的に計算する。
バックワードパスにおいて、軌道のパラメータに関する解析的微分を計算する補助後向き制御系を導入する。
標準的な制御ツール（例：iLQR, DDP）を用いて補助系を繰り返し解き、最適制御解へのバックプロパゲーションを可能にする。
PMP で定義される最適軌道制約のもとで、損失関数 $ L(\boldsymbol{\xi}_\theta, \boldsymbol{\theta}) $ の最小化問題として学習問題を定式化する。
すべての微分可能なパラメータを、力学系 $ \boldsymbol{f}_\theta $、ポリシー $ \boldsymbol{\pi}_\theta $、コスト関数 $ c_\theta $ としてパラメータライズし、PMP を介して微分可能にする。
損失関数と制約関数を再定義することで、逆強化学習（IRL）、システム同定（SysID）、制御／計画の3つの学習モードをサポートする。

実験結果

リサーチクエスチョン

RQ1Pontryaginの最大原理を用いて最適制御解を微分可能にすることで、システム要因のエンドツーエンド学習を可能にできるか？
RQ2有限差分に頼らずに、最適制御系における軌道のパラメータに関する解析的勾配をどのように計算できるか？
RQ3提案フレームワークは、模倣データや観測データから、力学系、ポリシー、コスト関数を高精度かつ高効率に同時に学習できるか？
RQ4バックワードパスにおける補助制御系は、高次元制御タスクにおけるスケーラブルで微分可能な最適化をどのように可能にするか？
RQ5四脚クアッドローターやロケットなどの複雑な系において、PDP は既存手法に比べてシステム同定、逆RL、制御計画の分野でどの程度の性能向上を達成できるか？

主な発見

PDP は、Pontryaginの最大原理を介して最適制御問題の解を微分することで、力学系、ポリシー、制御目的のエンドツーエンド学習を可能にする。
バックワードパスにおける補助制御系は、有限差分による近似誤差を回避する、軌道のパラメータに関する正確な解析的勾配を計算する。
逆強化学習モードでは、模倣データから、最適でない場合でも専門家の力学系およびコスト関数を正確に回復する。
システム同定モードでは、6自由度のクアッドローターおよび6自由度のロケットなど、高次元系において、観測された状態入力軌道のみを用いて、高精度な力学系回復を達成する。
制御／計画モードでは、微分可能なコスト関数を用いた効率的な軌道最適化を可能にし、複雑な系においてスケーラビリティと収束性を示す。
アーキテクチャやアルゴリズムの再構成なしに、複数の学習モードで一貫した性能を示し、フレームワークの汎用性とエンドツーエンド微分可能性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。