QUICK REVIEW

[논문 리뷰] Path Integral Networks: End-to-End Differentiable Optimal Control

Masashi Okada, Luca Rigazio|arXiv (Cornell University)|2017. 06. 29.

Neural Networks Stability and Synchronization참고 문헌 30인용 수 41

한 줄 요약

이 논문은 경로 적분 최적 제어 알고리즘을 구현하는 완전히 미분 가능한 엔드 투 엔드 학습이 가능한 순환 신경망인 경로 적분 네트워크(PI-Net)를 소개한다. 역전파를 통해 시스템 동역학과 비용 모델을 함께 학습함으로써, 연속 제어 과제에서 계획 기반 제어를 가능하게 하여 선형 및 펜듈럼 시스템에서의 이민 학습 벤치마크에서 뛰어난 일반화 성능을 달성한다.

ABSTRACT

In this paper, we introduce Path Integral Networks (PI-Net), a recurrent network representation of the Path Integral optimal control algorithm. The network includes both system dynamics and cost models, used for optimal control based planning. PI-Net is fully differentiable, learning both dynamics and cost models end-to-end by back-propagation and stochastic gradient descent. Because of this, PI-Net can learn to plan. PI-Net has several advantages: it can generalize to unseen states thanks to planning, it can be applied to continuous control tasks, and it allows for a wide variety learning schemes, including imitation and reinforcement learning. Preliminary experiment results show that PI-Net, trained by imitation learning, can mimic control demonstrations for two simulated problems; a linear system and a pendulum swing-up problem. We also show that PI-Net is able to learn dynamics and cost models latent in the demonstrations.

연구 동기 및 목표

반응형 딥 강화 학습 정책가 새로운 상태에 대해 일반화하지 못하고 계획 기반 기능이 부족한 문제를 해결한다.
최적 제어에서 정확한 시스템 동역학과 비용 함수를 수동으로 지정하는 과제를 해결하기 위해 이를 시연 데이터로부터 학습한다.
역전파와 확률적 경사 하강법을 사용하여 동역학 및 비용 모델의 엔드 투 엔드 학습을 가능하게 한다.
미분 가능한 최적 제어 프레임워크가 딥 러닝에 통합될 수 있음을 보여주어 연속 제어 과제에서 일반화 및 계획 기반 성능을 향상시킨다.
통합적인 미분 가능한 아키텍처를 사용하여 전문가 시연 데이터로부터 잠재 동역학과 비용 함수를 학습할 수 있는지 탐색한다.

제안 방법

경로 적분 최적 제어 알고리즘을 순환 신경망(PI-Net)으로 표현하여 모든 구성 요소를 미분 가능하게 한다.
시스템 동역학과 비용 모델을 하나의 미분 가능한 아키텍처에 통합하여 공동 엔드 투 엔드 학습을 가능하게 한다.
경로 비용 기반의 제어 손실을 최소화하기 위해 확률적 경사 하강법과 역전파를 사용하여 네트워크 파라미터를 최적화한다.
경로 샘플링을 통해 제어 시퀀스를 반복적으로 향상시키기 위해 Eq. 3의 경로 적분 업데이트 규칙을 미분 가능한 형태로 적용한다.
예측된 경로와 전문가 경로 및 비용 간의 차이를 최소화하여 이민 학습을 통해 네트워크를 훈련시킨다.
연속 제어 과제에서 비교를 위해 국소 연결 네트워크(LCN)와 CNN을 베이스라인으로 사용한다.

실험 결과

연구 질문

RQ1반응형 정책과 비교해 볼 때, 최적 제어의 미분 가능한 신경망 표현이 연속 제어 과제에서 일반화 성능을 향상시킬 수 있는가?
RQ2사전 지식 없이 전문가 시연 데이터로부터 PI-Net이 얼마나 정확한 시스템 동역학과 비용 함수를 학습할 수 있는가?
RQ3동역학 및 비용 모델의 엔드 투 엔드 학습이 성능과 모델링 오차에 대한 강건성에 어떤 영향을 미치는가?
RQ4PI-Net이 연속 제어 벤치마크에서 표준가치 기반 또는 이민 기반 딥 강화 학습 방법을 초월할 수 있는가?
RQ5고차원 제어 과제에서 계획 기반 제어 성능에 대해 아키텍처 선택(예: LCN 대 CNN)의 영향은 무엇인가?

주요 결과

훈련된 PI-Net은 펜듈럼 스윙업 과제에서 전문가 성능과 동일한 100% 성공률을 기록했으며, 고정된 동역학을 가진 동결된 PI-Net(고정된 동역학)는 모델링 오류로 인해 일반화 성능이 떨어졌다.
훈련된 PI-Net은 전문가의 404.63에 가까운 경로 비용 429.69를 기록하여 최적 비용 함수의 효과적인 이민을 보였다.
PI-Net에서 학습된 비용 모델은 그림 3에 시각화된 바와 같이 교사 모델과 유사했으며, 시연 데이터로부터 잠재 비용 함수를 정확히 추출했음을 보여주었다.
VIN 기반 모델(LCN 및 CNN)은 펜듈럼 과제에서 어떤 성공률도 기록하지 못했으며(0% 성공률), 표준가치 반복 네트워크로 연속 제어를 모델링하는 데의 어려움을 드러냈다.
PI-Net는 테스트 동역학 MSE 1.65×10⁻³ 및 테스트 비용 MSE 1.65×10⁻³를 기록하여 강력한 일반화 성능과 정확한 모델 학습을 보였다.
엔드 투 엔드 학습은 동역학 모델링 오차를 암묵적으로 보완할 수 있었으며, 고정된 동역학 기반 모델 대비 강건성과 성능 향상을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.