Skip to main content
QUICK REVIEW

[论文解读] Capacities, Measurable Selection and Dynamic Programming Part II: Application in Stochastic Control Problems

Nicole El Karoui, Xiaolu Tan|arXiv (Cornell University)|Oct 12, 2013
Risk and Portfolio Optimization参考文献 23被引用 66
一句话总结

本文通过在局部鞅问题框架内使用可测选择技术,为一般随机控制与停止问题建立了动态规划原理(DPP)。它在弱、强和松弛公式下证明了受控/停止扩散过程的DPP,并展示了这些公式下值函数的等价性与稳定性,而无需假设最优控制的存在性或唯一性。

ABSTRACT

We provide an overview on how to use the measurable selection techniques to derive the dynamic programming principle for a general stochastic optimal control/stopping problem. By considering its martingale problem formulation on the canonical space of paths, one can check the required measurability conditions. This covers in particular the most classical controlled/stopped diffusion processes problems. Further, we study the approximation property of the optimal control problems by piecewise constant control problems. As a byproduct, we obtain an equivalence result of the strong, weak and relaxed formulations of the controlled/stopped diffusion processes problem.

研究动机与目标

  • 通过可测选择技术,为连续时间随机控制/停止问题提供一个统一的动态规划原理(DPP)推导框架。
  • 通过局部鞅问题表述和正则条件分布,解决连续时间控制中可测性这一技术难题。
  • 为受控/停止扩散过程的不同公式——弱、强和松弛——建立值函数的等价性。
  • 证明控制问题在通过分段常数控制问题逼近下的稳定性,确保值函数的收敛性。
  • 将DPP推广至一般受控/停止局部鞅问题,无需假设正则性或最优控制的存在性。

提出的方法

  • 通过局部鞅问题表述随机控制问题,为控制行为提供一个通用且灵活的框架。
  • 使用可测选择技术处理连续时间路径空间上控制选择的可测性问题。
  • 利用正则条件分布(r.c.d.)从 [0,1]^n 上的独立同分布均匀随机变量构造适应性控制过程。
  • 构造一系列分段常数控制问题,并通过逆分布函数证明其稳定收敛至原问题。
  • 应用随机Perron方法框架推导粘性解,并在无需预先知道最优性的情况下验证DPP。
  • 利用连续路径的典范空间和基于概率测度的控制表示,确保不同公式下框架的通用性与鲁棒性。

实验结果

研究问题

  • RQ1在不假设值函数连续性或下半连续性的情况下,如何严格推导一般连续时间随机控制与停止问题的动态规划原理?
  • RQ2在受控扩散过程背景下,控制选择在连续路径空间中的可测性需满足何种条件?
  • RQ3在一般条件下,受控/停止扩散过程的弱、强和松弛公式的值函数是否等价?
  • RQ4原控制问题的值函数在通过分段常数控制问题逼近时是否保持稳定?
  • RQ5是否可以在不依赖最优控制规则存在性或唯一性的情况下建立DPP?

主要发现

  • 通过可测选择技术,DPP适用于一类广义的受控/停止局部鞅问题,且无需假设值函数的连续性或下半连续性。
  • 在温和的正则性条件下,受控/停止扩散过程的弱、强和松弛公式的值函数是等价的。
  • 分段常数控制逼近稳定收敛至原问题,且逼近问题的值函数收敛至原问题的值函数。
  • DPP的建立不依赖最优控制或停止规则的存在性,而是基于可测选择和正则条件分布。
  • 该框架允许通过随机Perron方法推导粘性解,且DPP作为其结果自然成立。
  • 通过条件分布的逆分布函数构造适应性控制,确保了在典范路径空间设定下DPP的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。