QUICK REVIEW

[논문 리뷰] Hamilton-Jacobi-Bellman Equations for Q-Learning in Continuous Time

Jeongho Kim, Insoon Yang|arXiv (Cornell University)|2019. 12. 23.

Adaptive Dynamic Programming Control인용 수 2

한 줄 요약

이 논문은 리프시츠 연속 제어를 갖는 연속시간 최적제어 문제에서 Q함수에 대한 하밀턴-자코비-벨리만(HJB) 방정식을 수립하고, Q함수를 유일한 점성해로 규정한다. 이와 함께 HJB 이론에 기반한 Q러닝 알고리즘과 고차원 시스템을 위한 DQN 유사 방법을 제안하며, 1차원, 10차원 및 20차원 동역학계에서 검증한다.

ABSTRACT

In this paper, we introduce Hamilton-Jacobi-Bellman (HJB) equations for Q-functions in continuous time optimal control problems with Lipschitz continuous controls. The standard Q-function used in reinforcement learning is shown to be the unique viscosity solution of the HJB equation. A necessary and sufficient condition for optimality is provided using the viscosity solution framework. By using the HJB equation, we develop a Q-learning method for continuous-time dynamical systems. A DQN-like algorithm is also proposed for high-dimensional state and control spaces. The performance of the proposed Q-learning algorithm is demonstrated using 1-, 10- and 20-dimensional dynamical systems.

연구 동기 및 목표

리프시츠 연속 제어를 갖는 연속시간 최적제어 문제에 Q러닝을 확장한다.
연속시간 HJB 방정식의 유일한 점성해로 Q함수를 규정한다.
점성해 이론을 통해 최적성의 필요 및 충분 조건을 제시한다.
연속시간 동역학계에 적용 가능한 실용적인 Q러닝 알고리즘을 개발한다.
DQN 유사 접근법을 통해 고차원 상태 및 제어 공간으로의 확장성을 확보한다.

제안 방법

리프시츠 제어 제약 조건 하에서 연속시간 최적제어의 Q함수를 지배하는 HJB 방정식을 유도한다.
점성해 이론을 활용해 Q함수의 유일성과 최적성 조건을 증명한다.
시간 차분 갱신을 사용해 HJB 방정식을 반복적으로 푸는 Q러닝 알고리즘을 제안한다.
고차원 상태 및 제어 공간을 다룰 수 있도록 DQN 아키텍처를 연속시간 환경에 적응시킨다.
함수 근사와 경험 재현을 활용해 고차원 환경에서의 학습 안정성을 확보한다.
1-, 10-, 20-차원 동역학계에 알고리즘을 적용하여 확장성과 성능을 시연한다.

실험 결과

연구 질문

RQ1리프시츠 제어를 갖는 연속시간 최적제어 문제에서 Q함수에 대한 HJB 방정식은 어떻게 수립할 수 있는가?
RQ2점성해는 Q함수의 특성화와 최적성 보장에 있어 어떤 역할을 하는가?
RQ3연속시간 시스템에 대해 HJB 방정식에서 직접적으로 Q러닝 알고리즘을 유도할 수 있는가?
RQ4제안된 방법은 고차원 상태 및 제어 공간으로 어떻게 확장되는가?
RQ5다양한 차원성의 연속시간 동역학계에서의 실증 성능는 어떠한가?

주요 결과

연속시간 최적제어에서 Q함수는 유일한 점성해로 유도된 HJB 방정식의 해이다.
점성해 프레임워크를 통해 최적성의 필요 및 충분 조건이 확립된다.
제안된 Q러닝 알고리즘은 연속시간에서 최적 제어 정책을 성공적으로 학습한다.
DQN 유사 적응을 통해 고차원 시스템, 특히 10차원 및 20차원 사례에서도 효과적인 학습이 가능해진다.
실증 결과는 1-, 10-, 20-차원 동역학계 전반에서 안정적이고 수렴하는 학습 성능을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.