Skip to main content
QUICK REVIEW

[论文解读] The Pontryagin maximum principle and $Q$-functions in rough environments

Estepan Ashkarian, Prakash Chakraborty|arXiv (Cornell University)|Jan 8, 2026
Stability and Controllability of Differential Equations被引用 0
一句话总结

该论文推导了使用 spike variation 摘要扰动在含噪的 rough differential equations 的松弛控制下的 Pontryagin 极大原理和 infinitesimal Q/q-函数,以在熵成本下实现策略改进。

ABSTRACT

We derive the Pontryagin maximum principle and $Q$-functions for the relaxed control of noisy rough differential equations. Our main tool is the development of a novel differentiation procedure along `spike variation' perturbations of the optimal state-control pair. We then exploit our development of the infinitesimal $Q$-function (also known as the $q$-function) to derive a policy improvement algorithm for settings with entropic cost constraints.

研究动机与目标

  • 用 rough paths 捕捉的普遍噪声与非马尔可夫环境来激发强化学习的研究动机。
  • 为 rough differential equations 中的松弛控制建立 Pontryagin 最大原理。
  • 定义并利用 infinitesimal Q-function(q-function)在连续时间里将 PMP 与 Q-learning 联系起来。
  • 提出在开放回路和閉环设定下的熵正则化策略改进和 Gibbs 形式策略。

提出的方法

  • 将状态动力学建模为带松弛控制和粗糙噪声的 rough differential equations。
  • 引入并实现 spike variation 摆动扰动框架以在粗糙设定中推导 PMP。
  • 定义并分析 infinitesimal q-function,使其将 PMP 与连续时间的 Q-learning 概念联系起来。
  • 在粗糙输入下建立一个价值函数和 HJB 类方程的 rough viscosity 框架。
  • 在熵项下推导开放回路的 Gibbs 形式策略,并设计通过粗糊变换的策略改进。
  • 为策略改进提供一个计算角度,并讨论在粗糙动力学下的粘性/最优性原则。

实验结果

研究问题

  • RQ1在粗糙微分方程的松弛控制下, Pontryagin 最大原理如何表述?
  • RQ2在粗糙环境中合适的 infinitesimal q-function(q-function)是什么,如何推导?
  • RQ3熵正则化如何影响连续时间、带噪声、非马尔可夫设置下的最优策略?
  • RQ4当动力学由粗糙路径驱动且控制空间为概率分布(松弛)时,策略改进是否可被证明并实现?

主要发现

  • 利用新颖的 spike variation 微分方法,在粗糙微分方程的松弛控制下推导出 Pontryagin 最大原理。
  • 构建并展示 infinitesimal q-function,将 PMP 与粗糙环境中的哈密顿量状对象联系起来。
  • 熵项导致 Gibbs 形式的开放回路最优策略,并将 q-function 与明确的策略表示联系起来。
  • 通过沿着粗糊流的变换分析开放回路与闭环两种情形下的策略改进,建立粗糙粘性 HJB 框架。
  • 该框架将高斯过程和分数布朗运动作为自然应用,展示广泛适用性。
  • 该工作为在粗糙、非马尔可夫环境中的数值分析与强化学习提供了基础工具。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。