[论文解读] Capacities, Measurable Selection and Dynamic Programming Part II: Application in Stochastic Control Problems
本文通过在局部鞅问题框架内使用可测选择技术,为一般随机控制与停止问题建立了动态规划原理(DPP)。它在弱、强和松弛公式下证明了受控/停止扩散过程的DPP,并展示了这些公式下值函数的等价性与稳定性,而无需假设最优控制的存在性或唯一性。
We provide an overview on how to use the measurable selection techniques to derive the dynamic programming principle for a general stochastic optimal control/stopping problem. By considering its martingale problem formulation on the canonical space of paths, one can check the required measurability conditions. This covers in particular the most classical controlled/stopped diffusion processes problems. Further, we study the approximation property of the optimal control problems by piecewise constant control problems. As a byproduct, we obtain an equivalence result of the strong, weak and relaxed formulations of the controlled/stopped diffusion processes problem.
研究动机与目标
- 通过可测选择技术,为连续时间随机控制/停止问题提供一个统一的动态规划原理(DPP)推导框架。
- 通过局部鞅问题表述和正则条件分布,解决连续时间控制中可测性这一技术难题。
- 为受控/停止扩散过程的不同公式——弱、强和松弛——建立值函数的等价性。
- 证明控制问题在通过分段常数控制问题逼近下的稳定性,确保值函数的收敛性。
- 将DPP推广至一般受控/停止局部鞅问题,无需假设正则性或最优控制的存在性。
提出的方法
- 通过局部鞅问题表述随机控制问题,为控制行为提供一个通用且灵活的框架。
- 使用可测选择技术处理连续时间路径空间上控制选择的可测性问题。
- 利用正则条件分布(r.c.d.)从 [0,1]^n 上的独立同分布均匀随机变量构造适应性控制过程。
- 构造一系列分段常数控制问题,并通过逆分布函数证明其稳定收敛至原问题。
- 应用随机Perron方法框架推导粘性解,并在无需预先知道最优性的情况下验证DPP。
- 利用连续路径的典范空间和基于概率测度的控制表示,确保不同公式下框架的通用性与鲁棒性。
实验结果
研究问题
- RQ1在不假设值函数连续性或下半连续性的情况下,如何严格推导一般连续时间随机控制与停止问题的动态规划原理?
- RQ2在受控扩散过程背景下,控制选择在连续路径空间中的可测性需满足何种条件?
- RQ3在一般条件下,受控/停止扩散过程的弱、强和松弛公式的值函数是否等价?
- RQ4原控制问题的值函数在通过分段常数控制问题逼近时是否保持稳定?
- RQ5是否可以在不依赖最优控制规则存在性或唯一性的情况下建立DPP?
主要发现
- 通过可测选择技术,DPP适用于一类广义的受控/停止局部鞅问题,且无需假设值函数的连续性或下半连续性。
- 在温和的正则性条件下,受控/停止扩散过程的弱、强和松弛公式的值函数是等价的。
- 分段常数控制逼近稳定收敛至原问题,且逼近问题的值函数收敛至原问题的值函数。
- DPP的建立不依赖最优控制或停止规则的存在性,而是基于可测选择和正则条件分布。
- 该框架允许通过随机Perron方法推导粘性解,且DPP作为其结果自然成立。
- 通过条件分布的逆分布函数构造适应性控制,确保了在典范路径空间设定下DPP的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。