Skip to main content
QUICK REVIEW

[论文解读] Taylor Expansions of the Value Function Associated with a Bilinear Optimal Control Problem

Tobias Breiten, Karl Kunisch|arXiv (Cornell University)|Jun 16, 2017
Optimization and Variational Analysis参考文献 40被引用 25
一句话总结

该论文通过递归求解广义黎卡蒂方程,为无限维双线性最优控制问题构建了值函数的高阶泰勒展开。该方法在原点附近构造了值函数的多项式逼近,从而得到一种次优反馈律,实现了 $\mathcal{O}(\|y_0\|^{p+1})$-最优性能,且控制量对最优控制的收敛率为 $\mathcal{O}(\|y_0\|^{(p+1)/2})$,适用于初始状态较小的情形。

ABSTRACT

A general bilinear optimal control problem subject to an infinite-dimensional state equation is considered. Polynomial approximations of the associated value function are derived around the steady state by repeated formal differentiation of the Hamilton-Jacobi-Bellman equation. The terms of the approximations are described by multilinear forms, which can be obtained as solutions to generalized Lyapunov equations with recursively defined right-hand sides. They form the basis for defining a suboptimal feedback law. The approximation properties of this feedback law are investigated. An application to the optimal control of a Fokker-Planck equation is also provided.

研究动机与目标

  • 为无限维希尔伯特空间中的双线性最优控制问题的值函数开发一种系统化的逼近方法。
  • 基于值函数的多项式逼近,推导出一种反馈控制律,确保在初始扰动较小时具有次优性能。
  • 建立次优反馈律性能的严格误差界,量化其趋近最优控制的收敛性。
  • 将有限维值函数泰勒展开技术推广至无限维情形,尤其适用于由PDE控制的系统。

提出的方法

  • 通过哈密顿-雅可比-贝拉曼方程的形式微分,将值函数在原点附近展开为 $p+1$ 阶泰勒级数。
  • 展开系数 $\mathcal{T}_k$ 为多重线性形式,通过递归定义右端项的广义黎卡蒂方程求解。
  • 双线性形式 $\mathcal{T}_2$ 满足代数黎卡蒂方程,而 $\mathcal{T}_k$($k \geq 3$)则满足涉及算子 $A_\Pi$ 和已知右端项 $\mathcal{R}_k$ 的广义黎卡蒂方程。
  • 利用导数的对称性,通过置换集和对称多重线性形式,推导出高阶项的紧凑表示。
  • 构造次优反馈律为 $\mathbf{u}_p(y) = -\frac{1}{\alpha} D\mathcal{V}_p(y)(Ny + B)$,其中 $\mathcal{V}_p$ 为值函数的多项式逼近。
  • 通过分析闭环系统的适定性与收敛性,利用泰勒展开的结构推导出误差估计。

实验结果

研究问题

  • RQ1能否为无限维双线性最优控制问题严格构造值函数的高阶泰勒展开?
  • RQ2如何通过广义黎卡蒂方程递归计算泰勒展开的系数?
  • RQ3由值函数多项式逼近导出的反馈律具有何种性能保证?
  • RQ4与真实最优控制相比,该反馈律生成的次优控制可建立何种收敛速率?
  • RQ5所提方法是否可应用于PDE约束控制问题,如福克-普朗克方程?

主要发现

  • 值函数在原点附近存在 $p+1$ 阶泰勒展开,满足 $\mathcal{V}(y) - \mathcal{V}_p(y) = \mathcal{O}(\|y\|_Y^{p+1})$。
  • 对于 $k \geq 2$,系数 $\mathcal{T}_k$ 为对称多重线性形式,满足右端项递归定义的广义黎卡蒂方程。
  • 次优反馈律 $\mathbf{u}_p$ 生成的开环控制满足成本估计 $\mathcal{J}(\mathbf{U}_p(y_0), y_0) \leq \mathcal{V}(y_0) + \mathcal{O}(\|y_0\|_Y^{p+1})$。
  • 次优控制在 $L^2(0,\infty)$ 范数下以速率 $\|\mathbf{U}_p(y_0) - \bar{u}\|_{L^2} = \mathcal{O}(\|y_0\|_Y^{(p+1)/2})$ 收敛至真实最优控制,适用于小初始状态 $y_0$。
  • 该方法适用于无限维系统,包括福克-普朗克方程,证明其在PDE约束控制中的适用性。
  • 该分析首次为无限维双线性控制系统中基于高阶泰勒的反馈律提供了严格的收敛速率估计。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。