QUICK REVIEW

[논문 리뷰] Pontryagin Differentiable Programming: An End-to-End Learning and Control Framework

Wanxin Jin, Zhaoran Wang|arXiv (Cornell University)|2019. 12. 30.

Advanced Control Systems Optimization인용 수 29

한 줄 요약

이 논문은 최적 제어 시스템에서 역학, 정책, 제어 目적을 공동으로 학습할 수 있도록 하는 통합형 엔드 투 엔드 프레임워크인 폰트리아긴 미분 가능 프로그래밍(Pontryagin Differentiable Programming, PDP)을 소개한다. 보조 역행 제어 시스템을 도입함으로써 PDP는 매개변수에 대한 궤적의 분석적 기울기를 계산하여, 고차원 시스템인 큐드로터와 로켓 착륙과 같은 과제에서 역강화 학습, 시스템 식별, 제어 계획 작업에 대해 효율적인 훈련을 가능하게 한다.

ABSTRACT

This paper develops a Pontryagin Differentiable Programming (PDP) methodology, which establishes a unified framework to solve a broad class of learning and control tasks. The PDP distinguishes from existing methods by two novel techniques: first, we differentiate through Pontryagin's Maximum Principle, and this allows to obtain the analytical derivative of a trajectory with respect to tunable parameters within an optimal control system, enabling end-to-end learning of dynamics, policies, or/and control objective functions; and second, we propose an auxiliary control system in the backward pass of the PDP framework, and the output of this auxiliary control system is the analytical derivative of the original system's trajectory with respect to the parameters, which can be iteratively solved using standard control tools. We investigate three learning modes of the PDP: inverse reinforcement learning, system identification, and control/planning. We demonstrate the capability of the PDP in each learning mode on different high-dimensional systems, including multi-link robot arm, 6-DoF maneuvering quadrotor, and 6-DoF rocket powered landing.

연구 동기 및 목표

고차원 시스템에서 역학, 정책, 제어 목표를 통합 프레임워크를 통해 공동으로 학습하는 도전 과제를 해결한다.
기존 방법의 데이터 효율성과 장기 예측 정확도의 한계를 극복하여 시스템 식별 및 역학습에 기여한다.
최적 제어 이론과 미분 가능 학습을 통합하여 검증 가능하고 설명 가능한 모델을 갖춘 엔드 투 엔드 훈련을 가능하게 한다.
단일 미분 가능 프레임워크를 통해 알 수 없는 시스템 구성요소인 역학, 정책, 비용 함수를 공동 최적화할 수 있도록 한다.
모델 기반 강화 학습과 역최적 제어를 모두 지원하는 확장 가능한, 미분 가능한 아키텍처를 제공한다.

제안 방법

폰트리아긴 최대 원리(Pontryagin’s Maximum Principle, PMP)를 통해 최적 궤적에 대한 매개변수에 대한 기울기를 분석적으로 계산한다.
역전파 과정에서 매개변수에 대한 궤적의 도함수를 계산하는 보조 역행 제어 시스템을 도입한다.
표준 제어 도구(iLQR, DDP 등)를 사용하여 보조 시스템을 반복적으로 풀어 최적 제어 해법을 통한 역전파를 가능하게 한다.
손실 함수 $ L(\boldsymbol{\xi}_\theta, \boldsymbol{\theta}) $ 를 최소화하는 문제로 학습을 설정하며, PMP에 의해 정의된 최적 궤적 제약 조건을 포함한다.
모든 구성요소가 PMP를 통해 미분 가능하도록 역학 $ \boldsymbol{f}_\theta $, 정책 $ \boldsymbol{\pi}_\theta $, 비용 함수 $ c_\theta $ 를 매개변수화한다.
손실 함수와 제약 조건을 재정의함으로써 역강화 학습(IRL), 시스템 식별(SysID), 제어/계획 세 가지 학습 모드를 지원한다.

실험 결과

연구 질문

RQ1폰트리아긴 최대 원리를 통해 최적 제어 해법을 미분 가능하게 하여 시스템 구성요소의 엔드 투 엔드 학습을 가능하게 할 수 있는가?
RQ2유한 차분에 의존하지 않고 최적 제어 시스템에서 매개변수에 대한 궤적의 분석적 기울기를 어떻게 계산할 수 있는가?
RQ3제안된 프레임워크는 시범 또는 데이터로부터 높은 정확도와 효율성으로 역학, 정책, 비용 함수를 공동으로 학습할 수 있는가?
RQ4역전파 단계에서의 보조 제어 시스템은 고차원 제어 과제에서 확장 가능하고 미분 가능한 최적화를 어떻게 가능하게 하는가?
RQ5큐드로터와 로켓과 같은 복잡한 시스템에서 시스템 식별, 역강화 학습, 제어 계획 과제에서 PDP는 기존 방법에 비해 어떤 성능 향상을 보이는가?

주요 결과

PDP는 폰트리아긴 최대 원리를 통한 최적 제어 문제 해법의 미분 가능성을 통해 역학, 정책, 제어 목표의 엔드 투 엔드 훈련을 가능하게 한다.
역전파 단계에서 보조 제어 시스템은 매개변수에 대한 궤적의 정확한 분석적 기울기를 계산하여 유한 차분에 의존하는 근사 오차를 피한다.
역강화 학습 모드에서 PDP는 시범이 최적일 필요 없이도 전문가의 역학과 비용 함수를 성공적으로 복원한다.
시스템 식별 모드에서 PDP는 관측된 상태-입력 궤적만으로도 6-DoF 큐드로터와 6-DoF 로켓과 같은 고차원 시스템에서 정확한 역학 복원을 달성한다.
제어/계획 모드에서 PDP는 미분 가능한 비용 함수를 통해 효율적인 궤적 최적화를 가능하게 하며, 복잡한 시스템에서 확장성과 수렴성을 입증한다.
프레임워크는 아키텍처나 알고리즘 재구성 없이도 다양한 학습 모드에서 뛰어난 성능을 보이며, 그 일반성과 엔드 투 엔드 미분 가능성의 우수성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.