QUICK REVIEW

[论文解读] Hamilton-Jacobi-Bellman Equations for Q-Learning in Continuous Time

Jeongho Kim, Insoon Yang|arXiv (Cornell University)|Dec 23, 2019

Adaptive Dynamic Programming Control被引用 2

一句话总结

本文为具有Lipschitz连续控制的连续时间最优控制问题中的Q函数建立了Hamilton-Jacobi-Bellman（HJB）方程，证明Q函数是唯一的粘性解。提出了一种基于HJB理论的Q-learning算法，并采用类似DQN的方法处理高维系统，验证了其在1维、10维和20维动力系统中的有效性。

ABSTRACT

In this paper, we introduce Hamilton-Jacobi-Bellman (HJB) equations for Q-functions in continuous time optimal control problems with Lipschitz continuous controls. The standard Q-function used in reinforcement learning is shown to be the unique viscosity solution of the HJB equation. A necessary and sufficient condition for optimality is provided using the viscosity solution framework. By using the HJB equation, we develop a Q-learning method for continuous-time dynamical systems. A DQN-like algorithm is also proposed for high-dimensional state and control spaces. The performance of the proposed Q-learning algorithm is demonstrated using 1-, 10- and 20-dimensional dynamical systems.

研究动机与目标

将Q-learning扩展至具有Lipschitz连续控制的连续时间最优控制问题。
建立Q函数作为连续时间HJB方程的唯一粘性解。
利用粘性解理论，提供最优性的必要且充分条件。
为连续时间动力系统开发一种实用的Q-learning算法。
通过类似DQN的方法，将该方法扩展至高维状态空间与控制空间。

提出的方法

推导在Lipschitz控制约束下，连续时间最优控制中Q函数所遵循的HJB方程。
利用粘性解理论，证明Q函数的唯一性及最优性条件。
提出一种Q-learning算法，通过时序差分更新迭代求解HJB方程。
将DQN架构适配至连续时间下的高维状态与控制空间。
采用函数逼近与经验回放技术，以在高维设置中稳定学习过程。
将该算法应用于1维、10维和20维动力系统，以验证其可扩展性与性能表现。

实验结果

研究问题

RQ1如何为具有Lipschitz控制的连续时间最优控制问题中的Q函数建立HJB方程？
RQ2粘性解在刻画Q函数及确保最优性方面起到何种作用？
RQ3能否直接从HJB方程推导出适用于连续时间系统的Q-learning算法？
RQ4所提出的方法在高维状态与控制空间中如何实现扩展？
RQ5在不同维度的连续时间动力系统上，该方法可实现怎样的实证性能？

主要发现

在连续时间最优控制中，Q函数是所推导HJB方程的唯一粘性解。
通过粘性解框架，建立了最优性的必要且充分条件。
所提出的Q-learning算法在连续时间中成功学习到最优控制策略。
类似DQN的改进方法使高维系统（包括10维和20维）中的有效学习成为可能。
实证结果表明，该方法在1维、10维和20维动力系统中均表现出稳定且收敛的学习性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。