Skip to main content
QUICK REVIEW

[论文解读] Hamilton-Jacobi-Bellman Equations for Q-Learning in Continuous Time

Jeongho Kim, Insoon Yang|arXiv (Cornell University)|Dec 23, 2019
Adaptive Dynamic Programming Control被引用 2
一句话总结

本文为具有Lipschitz连续控制的连续时间最优控制问题中的Q函数建立了Hamilton-Jacobi-Bellman(HJB)方程,证明Q函数是唯一的粘性解。提出了一种基于HJB理论的Q-learning算法,并采用类似DQN的方法处理高维系统,验证了其在1维、10维和20维动力系统中的有效性。

ABSTRACT

In this paper, we introduce Hamilton-Jacobi-Bellman (HJB) equations for Q-functions in continuous time optimal control problems with Lipschitz continuous controls. The standard Q-function used in reinforcement learning is shown to be the unique viscosity solution of the HJB equation. A necessary and sufficient condition for optimality is provided using the viscosity solution framework. By using the HJB equation, we develop a Q-learning method for continuous-time dynamical systems. A DQN-like algorithm is also proposed for high-dimensional state and control spaces. The performance of the proposed Q-learning algorithm is demonstrated using 1-, 10- and 20-dimensional dynamical systems.

研究动机与目标

  • 将Q-learning扩展至具有Lipschitz连续控制的连续时间最优控制问题。
  • 建立Q函数作为连续时间HJB方程的唯一粘性解。
  • 利用粘性解理论,提供最优性的必要且充分条件。
  • 为连续时间动力系统开发一种实用的Q-learning算法。
  • 通过类似DQN的方法,将该方法扩展至高维状态空间与控制空间。

提出的方法

  • 推导在Lipschitz控制约束下,连续时间最优控制中Q函数所遵循的HJB方程。
  • 利用粘性解理论,证明Q函数的唯一性及最优性条件。
  • 提出一种Q-learning算法,通过时序差分更新迭代求解HJB方程。
  • 将DQN架构适配至连续时间下的高维状态与控制空间。
  • 采用函数逼近与经验回放技术,以在高维设置中稳定学习过程。
  • 将该算法应用于1维、10维和20维动力系统,以验证其可扩展性与性能表现。

实验结果

研究问题

  • RQ1如何为具有Lipschitz控制的连续时间最优控制问题中的Q函数建立HJB方程?
  • RQ2粘性解在刻画Q函数及确保最优性方面起到何种作用?
  • RQ3能否直接从HJB方程推导出适用于连续时间系统的Q-learning算法?
  • RQ4所提出的方法在高维状态与控制空间中如何实现扩展?
  • RQ5在不同维度的连续时间动力系统上,该方法可实现怎样的实证性能?

主要发现

  • 在连续时间最优控制中,Q函数是所推导HJB方程的唯一粘性解。
  • 通过粘性解框架,建立了最优性的必要且充分条件。
  • 所提出的Q-learning算法在连续时间中成功学习到最优控制策略。
  • 类似DQN的改进方法使高维系统(包括10维和20维)中的有效学习成为可能。
  • 实证结果表明,该方法在1维、10维和20维动力系统中均表现出稳定且收敛的学习性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。