QUICK REVIEW

[论文解读] Stochastic optimal control of delay equations arising in advertising models

Fausto Gozzi, Carlo Marinelli|ArXiv.org|Dec 20, 2004

Stochastic processes and financial applications参考文献 32被引用 34

一句话总结

本文针对同时存在状态延迟和控制延迟的随机延迟微分方程（SDDE）广告动态模型，提出了一个随机最优控制问题，并通过希尔伯特空间提升方法将其重新表述为无限维马尔可夫控制问题。建立了验证定理，并通过一个可解示例证明了所得汉密尔顿-雅可比-贝尔曼（HJB）方程存在光滑解，从而实现了在不确定性下的最优广告策略的显式反馈控制。

ABSTRACT

We consider a class of optimal control problems of stochastic delay differential equations (SDDE) that arise in connection with optimal advertising under uncertainty for the introduction of a new product to the market, generalizing classical work of Nerlove and Arrow (1962). In particular, we deal with controlled SDDE where the delay enters both the state and the control. Following ideas of Vinter and Kwong (1981) (which however hold only in the deterministic case), we reformulate the problem as an infinite dimensional stochastic control problem to which we associate, through the dynamic programming principle, a second order Hamilton-Jacobi-Bellman equation. We show a verification theorem and we exhibit some simple cases where such equation admits an explicit smooth solution, allowing us to construct optimal feedback controls.

研究动机与目标

使用带有状态和控制延迟的随机延迟微分方程（SDDE）对不确定性下的最优广告策略进行建模。
通过将SDDE提升至无限维希尔伯特空间形式，将确定性控制框架扩展至随机设置。
在正则性假设下，为相关无限维汉密尔顿-雅可比-贝尔曼（HJB）方程建立验证定理。
通过一个具有二次成本和线性动态的可解示例，证明显式反馈控制的存在性。
为未来在光滑解不存在时采用粘性解方法奠定基础。

提出的方法

通过提升技术，将带有状态和控制延迟的受控SDDE重新表述为希尔伯特空间中的等价无限维随机控制问题。
应用动态规划原理，推导出二阶、半线性、无限维HJB方程。
在仅延迟影响状态的特殊情况下，采用$L^2$方法和前向-后向SDE技术。
在光滑解假设下，为HJB方程建立验证定理。
构造一个具体示例，其中成本函数为二次型$h(z) = -\beta z_0^2$，终端收益为线性$ \varphi(x) = \gamma x_0$，以证明其显式可解性。
提出形如$v(t,x) = \langle w(t),x\rangle + c(t)$的候选解，并在积分意义下验证其满足HJB方程。

实验结果

研究问题

RQ1能否将同时存在状态和控制延迟的随机最优控制问题重新表述为无限维马尔可夫问题？
RQ2此类问题相关的HJB方程在何种条件下存在光滑解？
RQ3光滑解的存在是否能支持最优反馈控制律的构造？
RQ4在广告模型的特定参数情形下，能否推导出显式反馈控制？
RQ5验证定理成立所需的动力学和成本结构的必要条件是什么？

主要发现

在光滑解假设下，为无限维HJB方程建立了验证定理，从而能够推导出最优反馈控制。
在二次成本和线性动态的特殊情形下，HJB方程存在形如$v(t,x) = \langle w(t),x\rangle + c(t)$的解，且该解在积分意义下满足方程。
最优控制被显式推导为$z^*(t) = \frac{\langle B, w(t)\rangle^+}{2\beta}$，其与状态轨迹无关，表明为时变反馈律。
解$w(t)$由常微分方程组和一个传输方程确定，其中$w_1(t,\xi) = w_0(t - \xi) \mathbb{I}_{\{t - \xi \in [0,T]\}}$，表明延迟结构在提升系统中得以保持。
值函数在$[0,T] \times X$上连续，候选解在状态变量上二次可微，满足验证定理的假设条件。
该示例表明，即使$w(t)$不属于伴随算子$A^*$的定义域，解仍作为积分解有效，支持了该方法的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。