QUICK REVIEW

[논문 리뷰] Differentiable MPC for End-to-end Planning and Control

Brandon Amos, Ivan Dario Jimenez Rodriguez|arXiv (Cornell University)|2018. 10. 31.

Reinforcement Learning in Robotics참고 문헌 54인용 수 145

한 줄 요약

이 연구는 상자 제약이 있는 iLQR을 활용한 MPC의 고정점을 미분함으로써 미분 가능 MPC를 도입하고, 연속 제어 도메인에서 시뮬레이션 학습(imitation)용 비용과 동역학을 엔드투엔드로 학습할 수 있게 한다. 데이터 효율적인 imitation 및 표준 시스템 식별 대비 이점을 보여준다.

ABSTRACT

We present foundations for using Model Predictive Control (MPC) as a differentiable policy class for reinforcement learning in continuous state and action spaces. This provides one way of leveraging and combining the advantages of model-free and model-based approaches. Specifically, we differentiate through MPC by using the KKT conditions of the convex approximation at a fixed point of the controller. Using this strategy, we are able to learn the cost and dynamics of a controller via end-to-end learning. Our experiments focus on imitation learning in the pendulum and cartpole domains, where we learn the cost and dynamics terms of an MPC policy class. We show that our MPC policies are significantly more data-efficient than a generic neural network and that our method is superior to traditional system identification in a setting where the expert is unrealizable.

연구 동기 및 목표

연속 제어를 위한 모델 기반 MPC와 엔드 투 엔드 학습의 결합을 고무한다.
iLQR-유사 절차로 해결되는 상자 제약 MPC를 미분하는 해석적 방법을 제안한다.
전문가 시연으로부터 MPC의 비용과 동역학을 학습하는 것이 신경망보다 데이터 효율적일 수 있음을 보인다.
펜듈럼 및 카트-폴 도메인에서 imitation 학습 결과를 시연하고 시스템 식별과 비교한다.

제안 방법

MPC를 상자 제약이 있는 비용 C와 동역학 f로 매개변수화된 미분가능 모듈로 모델링한다.
추가 역전파를 사용해 선형화된 KKT 시스템을 풀이하여 비볼록 MPC 해석기의 고정점을 통해 미분한다.
LQR에서의 미분 가능성을 상자 제약 QP에 대한 KKT 조건의 도함수를 통해 확장한다.
전방 패스 분해를 재사용하여 역전파를 상수 시간에 수행하는 고정점 미분 접근법을 사용한다.
경사 기반 최적화(imitations 손실)를 통한 엔드투엔드 학습을 보이는 구현과 실험을 제공한다.
오픈 소스 해 solver 및 실험(mpc.pytorch)을 공개한다.

실험 결과

연구 질문

RQ1연속 제어에서 엔드투엔드 학습을 위한 미분 가능 정책 클래스로 MPC를 사용할 수 있는가?
RQ2언롤링이 아닌 고정점 방법으로 상자 제약 MPC를 효율적으로 미분하는 것이 가능한가?
RQ3미분 가능한 MPC를 이용한 엔드투엔드 imitation이 전문가로부터 비용과 동역학을 회복하는 데 시스템 식별보다 나은가?
RQ4연속 제어 imitation에서 데이터 효율성 면에서 differentiable MPC가 신경망과 어떻게 비교되는가?
RQ5비실현 가능한 전문가를 다루면서도 학습에 유용한 그래디언트를 여전히 제공할 수 있는가?

주요 결과

미분 가능한 MPC는 일반 신경망 정책보다 더 데이터 효율적인 imitation을 제공한다.
이 방법은 행동만으로 MPC 전문가의 비용과 동역학을 복원할 수 있으며, 비실현 가능한 설정에서 때로는 시스템 식별과 대등하거나 능가한다.
MPC 해답의 고정점 미분은 언롤드 미분보다 메모리 및 계산 효율이 더 높고, 순방향 패스 분해를 주면 역전파가 사실상 무료이다.
이 접근법은 비용과 동역학을 엔드투엔드로 학습하는 것을 지원하여 단순한 상태 예측을 넘어 작업 손실 기반 최적화를 가능하게 한다.
저자들은 오픈 소스 구현을 제공하여 실용성과 재현성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.