[论文解读] Optimal Feedback Law Recovery by Gradient-Augmented Sparse Polynomial Regression
本文提出了一种梯度增强的稀疏多项式回归方法,用于在非线性最优控制中恢复高维最优反馈律。通过利用庞特里亚金最大值原理生成状态-值-梯度数据集,采用LASSO回归拟合双曲交叉多项式模型,仅需极少的训练样本即可实现高精度的反馈律——当引入梯度信息时,所需样本量减少了90%,同时保持了复杂度极低的控制律(非零分量少于15%)。
A sparse regression approach for the computation of high-dimensional optimal feedback laws arising in deterministic nonlinear control is proposed. The approach exploits the control-theoretical link between Hamilton-Jacobi-Bellman PDEs characterizing the value function of the optimal control problems, and first-order optimality conditions via Pontryagin's Maximum Principle. The latter is used as a representation formula to recover the value function and its gradient at arbitrary points in the space-time domain through the solution of a two-point boundary value problem. After generating a dataset consisting of different state-value pairs, a hyperbolic cross polynomial model for the value function is fitted using a LASSO regression. An extended set of low and high-dimensional numerical tests in nonlinear optimal control reveal that enriching the dataset with gradient information reduces the number of training samples, and that the sparse polynomial regression consistently yields a feedback law of lower complexity.
研究动机与目标
- 开发一种计算高效的算法,用于近似高维非线性控制问题中的最优反馈律。
- 通过稀疏多项式回归降低求解Hamilton-Jacobi-Bellman PDE时的维数灾难问题。
- 通过在回归数据集中引入梯度信息,提升反馈律恢复的样本效率。
- 通过促进稀疏性的LASSO回归,生成复杂度最低的反馈律。
提出的方法
- 利用庞特里亚金最大值原理推导出的两点边值问题(TPBVP)求解,生成状态-值对及其梯度的数据集。
- 将TPBVP的解作为表示公式,用于在状态空间的任意点计算值函数及其梯度。
- 构建双曲交叉多项式试探函数,以在高维空间中逼近值函数。
- 应用LASSO回归拟合多项式模型,通过系数向量的稀疏性促进,降低反馈律的复杂度。
- 通过在训练数据集中加入梯度信息,提升回归精度并减少所需样本量。
- 在维度逐渐增加的非线性最优控制问题上验证该方法,与无梯度信息的标准回归方法进行性能对比。
实验结果
研究问题
- RQ1在高维最优控制中,梯度增强的数据集是否能显著减少准确恢复反馈律所需的训练样本数量?
- RQ2引入梯度信息如何影响值函数双曲多项式逼近的稀疏性与精度?
- RQ3通过LASSO实现的稀疏多项式回归是否能有效恢复复杂度极低的反馈律,且性能可媲美高样本量方法?
- RQ4双曲交叉多项式基是否在逼近高维值函数方面优于标准多项式基?
- RQ5基于PMP的数据集生成策略在多大程度上可替代直接求解HJB PDE来实现反馈律合成?
主要发现
- 在n=80的高维测试中,梯度增强的稀疏回归仅使用70个训练样本,即在L²范数下达到3.56×10⁻²的验证误差。
- 通过梯度增强回归得到的反馈律在3481个分量中仅有738个非零分量,非零分量占比不足15%。
- 相同问题下,标准LASSO回归需2430个样本才能达到7.46×10⁻²的更高误差,表明引入梯度信息后样本量减少了90%。
- 梯度增强的反馈律在非线性控制问题中能紧密跟踪最优轨迹,优于无梯度方法及高样本量方法。
- 该方法将反馈律中的非零分量数量控制在总数的15%以下,实现了高效的实时实现。
- 所有测试案例中,轨迹对比与误差指标均证实,该方法在更少样本和更低复杂度下实现了更优的控制性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。