Skip to main content
QUICK REVIEW

[论文解读] Probabilistic solution of relative entropy weighted control

Joris Bierkens, Hilbert J. Kappen|arXiv (Cornell University)|May 31, 2012
Stochastic processes and financial applications参考文献 12被引用 3
一句话总结

本文提出一种基于测度变换和Girsanov定理的概率方法,用于求解相对熵加权的随机控制问题,通过Malliavin微积分实现最优控制过程的显式计算。该方法超越了动态规划,为涉及布朗运动和相对熵惩罚的问题提供了精确解,并与扩散过程的线性HJB方程相联系。

ABSTRACT

We expand earlier results by Bou\'e and Dupuis where stochastic control problems with a particular cost structure, involving a relative entropy term, are shown to admit a solution by means of a change of measure technique. We provide methods of computing the corresponding optimal control process explicitly. Our results enables us to find solutions for optimal control problems to which the dynamic programming principle can not be applied. The argument is as follows. Minimization of the expectation of a random variable with respect to the underlying probability measure, penalized by relative entropy, may be solved exactly. In the case where the randomness is generated by a standard Brownian motion, this exact solution can be written as a Girsanov density. An explicit expression for the control process may be obtained in terms of the Malliavin derivative of the density process. The theory is applied to the problem of minimizing the maximum of a Brownian motion (penalized by the relative entropy). The link to a linear version of the Hamilton-Jacobi-Bellman equation is made for the case of diffusion processes.

研究动机与目标

  • 开发一种在动态规划不适用时求解带相对熵惩罚的随机控制问题的方法。
  • 利用测度变换技术,提供最优控制过程的显式表达式。
  • 将解与扩散过程的线性Hamilton-Jacobi-Bellman方程联系起来。
  • 在最小化布朗运动最大值并施加相对熵正则化的问题上展示该方法。
  • 建立一种通过密度过程的Malliavin导数计算控制的框架。

提出的方法

  • 使用测度变换技术,将相对熵惩罚的控制问题转化为可解的期望最小化问题。
  • 应用Girsanov定理,将最优测度变换表示为由布朗运动驱动的密度过程。
  • 通过Girsanov密度的Malliavin导数显式构造最优控制过程。
  • 以对数密度的梯度形式推导控制,实现解析可处理性。
  • 将解与扩散过程的线性版本Hamilton-Jacobi-Bellman方程联系起来。
  • 使用随机分析工具,避免在非马氏或类马氏设定下依赖动态规划。

实验结果

研究问题

  • RQ1当动态规划失效时,如何计算相对熵加权问题的最优控制?
  • RQ2最优控制过程在基本布朗运动及其Malliavin导数下的显式形式是什么?
  • RQ3在扩散过程设定下,该解如何与线性HJB方程相关联?
  • RQ4在相对熵惩罚下,最小化布朗运动最大值的问题能否被显式求解?
  • RQ5Girsanov密度在构造最优控制中起什么作用?

主要发现

  • 最优控制过程被显式表示为Girsanov密度的Malliavin导数,从而实现直接计算。
  • 该方法在不依赖动态规划的前提下,为相对熵惩罚的控制问题提供了精确解。
  • 在扩散过程情形下,该解框架与线性Hamilton-Jacobi-Bellman方程相联系。
  • 该方法成功解决了在相对熵正则化下最小化布朗运动最大值的问题。
  • 测度变换技术可将约束优化问题转化为可处理的期望最小化问题。
  • 该方法适用于价值函数不满足标准HJB方程的非马氏结构问题。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。