Skip to main content
QUICK REVIEW

[논문 리뷰] Path Integral Networks: End-to-End Differentiable Optimal Control

Masashi Okada, Luca Rigazio|arXiv (Cornell University)|2017. 06. 29.
Neural Networks Stability and Synchronization참고 문헌 30인용 수 41
한 줄 요약

이 논문은 경로 적분 최적 제어 알고리즘을 구현하는 완전히 미분 가능한 엔드 투 엔드 학습이 가능한 순환 신경망인 경로 적분 네트워크(PI-Net)를 소개한다. 역전파를 통해 시스템 동역학과 비용 모델을 함께 학습함으로써, 연속 제어 과제에서 계획 기반 제어를 가능하게 하여 선형 및 펜듈럼 시스템에서의 이민 학습 벤치마크에서 뛰어난 일반화 성능을 달성한다.

ABSTRACT

In this paper, we introduce Path Integral Networks (PI-Net), a recurrent network representation of the Path Integral optimal control algorithm. The network includes both system dynamics and cost models, used for optimal control based planning. PI-Net is fully differentiable, learning both dynamics and cost models end-to-end by back-propagation and stochastic gradient descent. Because of this, PI-Net can learn to plan. PI-Net has several advantages: it can generalize to unseen states thanks to planning, it can be applied to continuous control tasks, and it allows for a wide variety learning schemes, including imitation and reinforcement learning. Preliminary experiment results show that PI-Net, trained by imitation learning, can mimic control demonstrations for two simulated problems; a linear system and a pendulum swing-up problem. We also show that PI-Net is able to learn dynamics and cost models latent in the demonstrations.

연구 동기 및 목표

  • 반응형 딥 강화 학습 정책가 새로운 상태에 대해 일반화하지 못하고 계획 기반 기능이 부족한 문제를 해결한다.
  • 최적 제어에서 정확한 시스템 동역학과 비용 함수를 수동으로 지정하는 과제를 해결하기 위해 이를 시연 데이터로부터 학습한다.
  • 역전파와 확률적 경사 하강법을 사용하여 동역학 및 비용 모델의 엔드 투 엔드 학습을 가능하게 한다.
  • 미분 가능한 최적 제어 프레임워크가 딥 러닝에 통합될 수 있음을 보여주어 연속 제어 과제에서 일반화 및 계획 기반 성능을 향상시킨다.
  • 통합적인 미분 가능한 아키텍처를 사용하여 전문가 시연 데이터로부터 잠재 동역학과 비용 함수를 학습할 수 있는지 탐색한다.

제안 방법

  • 경로 적분 최적 제어 알고리즘을 순환 신경망(PI-Net)으로 표현하여 모든 구성 요소를 미분 가능하게 한다.
  • 시스템 동역학과 비용 모델을 하나의 미분 가능한 아키텍처에 통합하여 공동 엔드 투 엔드 학습을 가능하게 한다.
  • 경로 비용 기반의 제어 손실을 최소화하기 위해 확률적 경사 하강법과 역전파를 사용하여 네트워크 파라미터를 최적화한다.
  • 경로 샘플링을 통해 제어 시퀀스를 반복적으로 향상시키기 위해 Eq. 3의 경로 적분 업데이트 규칙을 미분 가능한 형태로 적용한다.
  • 예측된 경로와 전문가 경로 및 비용 간의 차이를 최소화하여 이민 학습을 통해 네트워크를 훈련시킨다.
  • 연속 제어 과제에서 비교를 위해 국소 연결 네트워크(LCN)와 CNN을 베이스라인으로 사용한다.

실험 결과

연구 질문

  • RQ1반응형 정책과 비교해 볼 때, 최적 제어의 미분 가능한 신경망 표현이 연속 제어 과제에서 일반화 성능을 향상시킬 수 있는가?
  • RQ2사전 지식 없이 전문가 시연 데이터로부터 PI-Net이 얼마나 정확한 시스템 동역학과 비용 함수를 학습할 수 있는가?
  • RQ3동역학 및 비용 모델의 엔드 투 엔드 학습이 성능과 모델링 오차에 대한 강건성에 어떤 영향을 미치는가?
  • RQ4PI-Net이 연속 제어 벤치마크에서 표준가치 기반 또는 이민 기반 딥 강화 학습 방법을 초월할 수 있는가?
  • RQ5고차원 제어 과제에서 계획 기반 제어 성능에 대해 아키텍처 선택(예: LCN 대 CNN)의 영향은 무엇인가?

주요 결과

  • 훈련된 PI-Net은 펜듈럼 스윙업 과제에서 전문가 성능과 동일한 100% 성공률을 기록했으며, 고정된 동역학을 가진 동결된 PI-Net(고정된 동역학)는 모델링 오류로 인해 일반화 성능이 떨어졌다.
  • 훈련된 PI-Net은 전문가의 404.63에 가까운 경로 비용 429.69를 기록하여 최적 비용 함수의 효과적인 이민을 보였다.
  • PI-Net에서 학습된 비용 모델은 그림 3에 시각화된 바와 같이 교사 모델과 유사했으며, 시연 데이터로부터 잠재 비용 함수를 정확히 추출했음을 보여주었다.
  • VIN 기반 모델(LCN 및 CNN)은 펜듈럼 과제에서 어떤 성공률도 기록하지 못했으며(0% 성공률), 표준가치 반복 네트워크로 연속 제어를 모델링하는 데의 어려움을 드러냈다.
  • PI-Net는 테스트 동역학 MSE 1.65×10⁻³ 및 테스트 비용 MSE 1.65×10⁻³를 기록하여 강력한 일반화 성능과 정확한 모델 학습을 보였다.
  • 엔드 투 엔드 학습은 동역학 모델링 오차를 암묵적으로 보완할 수 있었으며, 고정된 동역학 기반 모델 대비 강건성과 성능 향상을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.