QUICK REVIEW

[论文解读] The Pontryagin maximum principle and $Q$-functions in rough environments

Estepan Ashkarian, Prakash Chakraborty|arXiv (Cornell University)|Jan 8, 2026

Stability and Controllability of Differential Equations被引用 0

一句话总结

该论文推导了使用 spike variation 摘要扰动在含噪的 rough differential equations 的松弛控制下的 Pontryagin 极大原理和 infinitesimal Q/q-函数，以在熵成本下实现策略改进。

ABSTRACT

We derive the Pontryagin maximum principle and $Q$-functions for the relaxed control of noisy rough differential equations. Our main tool is the development of a novel differentiation procedure along `spike variation' perturbations of the optimal state-control pair. We then exploit our development of the infinitesimal $Q$-function (also known as the $q$-function) to derive a policy improvement algorithm for settings with entropic cost constraints.

研究动机与目标

用 rough paths 捕捉的普遍噪声与非马尔可夫环境来激发强化学习的研究动机。
为 rough differential equations 中的松弛控制建立 Pontryagin 最大原理。
定义并利用 infinitesimal Q-function（q-function）在连续时间里将 PMP 与 Q-learning 联系起来。
提出在开放回路和閉环设定下的熵正则化策略改进和 Gibbs 形式策略。

提出的方法

将状态动力学建模为带松弛控制和粗糙噪声的 rough differential equations。
引入并实现 spike variation 摆动扰动框架以在粗糙设定中推导 PMP。
定义并分析 infinitesimal q-function，使其将 PMP 与连续时间的 Q-learning 概念联系起来。
在粗糙输入下建立一个价值函数和 HJB 类方程的 rough viscosity 框架。
在熵项下推导开放回路的 Gibbs 形式策略，并设计通过粗糊变换的策略改进。
为策略改进提供一个计算角度，并讨论在粗糙动力学下的粘性/最优性原则。

实验结果

研究问题

RQ1在粗糙微分方程的松弛控制下， Pontryagin 最大原理如何表述？
RQ2在粗糙环境中合适的 infinitesimal q-function（q-function）是什么，如何推导？
RQ3熵正则化如何影响连续时间、带噪声、非马尔可夫设置下的最优策略？
RQ4当动力学由粗糙路径驱动且控制空间为概率分布（松弛）时，策略改进是否可被证明并实现？

主要发现

利用新颖的 spike variation 微分方法，在粗糙微分方程的松弛控制下推导出 Pontryagin 最大原理。
构建并展示 infinitesimal q-function，将 PMP 与粗糙环境中的哈密顿量状对象联系起来。
熵项导致 Gibbs 形式的开放回路最优策略，并将 q-function 与明确的策略表示联系起来。
通过沿着粗糊流的变换分析开放回路与闭环两种情形下的策略改进，建立粗糙粘性 HJB 框架。
该框架将高斯过程和分数布朗运动作为自然应用，展示广泛适用性。
该工作为在粗糙、非马尔可夫环境中的数值分析与强化学习提供了基础工具。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。