QUICK REVIEW

[논문 리뷰] HJB Optimal Feedback Control with Deep Differential Value Functions and Action Constraints.

Michael Lutter, Boris Belousov|arXiv (Cornell University)|2019. 01. 01.

Reinforcement Learning in Robotics인용 수 6

한 줄 요약

이 논문은 힘의 하미르토니안-자코비-벨리만(Hamilton-Jacobi-Bellman, HJB) 방정식에 깊이 있는 미분 네트워크를 통합하여 연속 시간 로봇 시스템에 대해 전역적으로 최적이고 안정적인 피드백 제어 정책을 학습하는 딥 최적 피드백 제어를 제안한다. 짧은 시점에서 장기 시점으로의 할인율을 적응적으로 조정하면서 동작 제약 조건을 엄격히 볼록한 동작 비용으로 강제하고 HJB 잔차를 최소화함으로써, 재계획이 필요 없이 어떤 초기 상태에서라도 최적의 궤적을 생성할 수 있는 가치 함수를 학습한다. 이는 비선형 시스템에서 표준 최적 제어 방법보다 뛰어난 성능을 발휘한다.

ABSTRACT

Learning optimal feedback control laws capable of executing optimal trajectories is essential for many robotic applications. Such policies can be learned using reinforcement learning or planned using optimal control. While reinforcement learning is sample inefficient, optimal control only plans an optimal trajectory from a specific starting configuration. In this paper we propose deep optimal feedback control to learn an optimal feedback policy rather than a single trajectory. By exploiting the inherent structure of the robot dynamics and strictly convex action cost, we can derive principled cost functions such that the optimal policy naturally obeys the action limits, is globally optimal and stable on the training domain given the optimal value function. The corresponding optimal value function is learned end-to-end by embedding a deep differential network in the Hamilton-Jacobi-Bellmann differential equation and minimizing the error of this equality while simultaneously decreasing the discounting from short- to far-sighted to enable the learning. Our proposed approach enables us to learn an optimal feedback control law in continuous time, that in contrast to existing approaches generates an optimal trajectory from any point in state-space without the need of replanning. The resulting approach is evaluated on non-linear systems and achieves optimal feedback control, where standard optimal control methods require frequent replanning.

연구 동기 및 목표

단일 최적 궤적을 계획하는 데 그치지 않고, 전체 훈련 도메인에서 전역적으로 최적이고 안정적인 피드백 제어 정책을 개발하는 것.
초기 조건이 계획된 궤적에서 벗어날 경우 자주 재계획이 필요한 표준 최적 제어 방법의 한계를 해결하는 것.
깊이 신경망을 HJB 편미분방정식에 통합하여 동작 제약 조건을 고려하면서 최적 가치 함수를 엔드 투 엔드로 학습하는 것.
임의의 초기 상태에서 상태 공간 내에서 최적 궤적을 생성할 수 있는 피드백 법칙을 학습함으로써 연속 시간 최적 제어를 실현하는 것.
훈련 중에 HJB 잔차를 최소화하고 짧은 시점에서 장기 시점으로의 할인율을 동적으로 조정하여 샘플 효율성과 일반화 능력을 향상시키는 것.

제안 방법

최적 제어 문제를 연속 시간 시스템의 최적 가치 함수를 특성화하는 해밀턴-자코비-벨리만(Hamilton-Jacobi-Bellman, HJB) 방정식을 사용하여 수식화한다.
최적 가치 함수를 매개변수화하기 위해 HJB 방정식에 깊이 있는 미분 네트워크를 통합하여 기울기 하강을 통한 엔드 투 엔드 학습을 가능하게 한다.
동작 제약 조건은 비용 함수 내의 엄격히 볼록한 동작 비용 항을 통해 강제되며, 이로써 최적 정책이 액추에이터 한계를 자연스럽게 준수하게 된다.
훈련 목표는 상태 공간 전역에서 HJB 방정식의 잔차 오차를 최소화하면서 동시에 할인 인자를 조정하여 짧은 시점에서 장기 시점 최적화로의 전환을 이룬다.
HJB 방정식을 통해 역전파가 가능한 기하학적 아키텍처를 사용하여 가치 함수와 정책을 동시에 최적화한다.
결과적으로 도출된 정책은 학습된 가치 함수의 기울기에서 유도된 피드백 법칙이며, 훈련 도메인에서 전역 최적성과 안정성을 보장한다.

실험 결과

연구 질문

RQ1엄격히 볼록한 동작 비용을 포함하면서도 동작 제약 조건을 준수하는 동시에 HJB 방정식에 깊이 신경망을 효과적으로 통합하여 최적 피드백 정책을 엔드 투 엔드로 학습할 수 있는가?
RQ2제안된 방법이 재계획 없이 전체 훈련 도메인에서 전역적으로 최적이고 안정적인 제어를 달성하는가?
RQ3적응형 할인율을 통해 짧은 시점과 장기 시점 최적화를 동적으로 균형 잡아 정책의 일반화 능력을 향상시킬 수 있는가?
RQ4초기 조건 변화에 대한 저항성과 궤적 최적성 측면에서 제안된 피드백 제어 법칙은 표준 최적 제어 방법보다 어떻게 비교되는가?
RQ5새로운 초기 상태에 대해 재계획 없이 얼마나 잘 일반화되는가? 비선형 시스템에서 최적성 유지 능력은 어떠한가?

주요 결과

제안된 방법은 새로운 초기 상태에서 재계획 없이도 전체 훈련 도메인에서 전역적으로 최적이고 안정적인 피드백 제어 정책을 성공적으로 학습한다.
HJB 방정식에 통합된 깊이 있는 미분 네트워크가 잔차 오차를 효과적으로 최소화하여 최적 가치 함수의 정확한 근사치를 도출한다.
엄격히 볼록한 동작 비용을 통합함으로써 정책은 자연스럽게 액추에이터 한계를 준수하며 물리적 실현 가능성을 확보한다.
적응형 할인 메커니즘이 짧은 기간과 장기 기간의 비용 기여를 모두 고려하여 수렴성과 일반화 능력을 향상시킨다.
표준 최적 제어 방법이 성능 유지 목적으로 자주 재계획이 필요한 비선형 시스템에서도 최적 피드백 제어를 달성한다.
결과 정책은 상태 공간의 어떤 점에서도 최적 궤적을 생성하며, 초기 궤적을 초월한 강건성과 일반화 능력을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.