QUICK REVIEW

[论文解读] Polytopic Input Constraints in Learning-Based Optimal Control Using Neural Networks

Lukas Markolf, Olaf Stursberg|arXiv (Cornell University)|May 7, 2021

Advanced Control Systems Optimization参考文献 18被引用 10

一句话总结

本论文提出了两种基于神经网络的新方法，用于在离散时间系统中学习满足多面体输入约束的最优控制。第一种方法采用基于梯度的优化，利用神经网络输出的闭式梯度，计算满足状态相关约束的次优输入；第二种方法采用Softmax激活的网络，参数化输入约束顶点的凸组合，从而预先保证约束满足。两种方法均实现了高效、安全且具备理论保证的实时模型预测控制。

ABSTRACT

This work considers artificial feed-forward neural networks as parametric approximators in optimal control of discrete-time systems. Two different approaches are introduced to take polytopic input constraints into account. The first approach determines (sub-)optimal inputs by the application of gradient methods. Closed-form expressions for the gradient of general neural networks with respect to their inputs are derived. The approach allows to consider state-dependent input constraints, as well as to ensure the satisfaction of state constraints by exploiting recursive reachable set computations. The second approach makes use of neural networks with softmax output units to map states into parameters, which determine (sub-)optimal inputs by a convex combination of the vertices of the input constraint set. The application of both approaches in model predictive control is discussed, and results obtained for a numerical example are used for illustration.

研究动机与目标

为解决在基于学习的最优控制中，利用神经网络集成多面体输入约束的挑战。
开发一种方法，确保约束满足的同时实现实时计算，以支持模型预测控制。
通过神经网络架构设计，提供输入可行性方面的先验保证，避免事后分析或约束松弛。
通过可及集计算，实现对状态依赖性输入约束和递归状态约束的考虑。

提出的方法

推导了前馈神经网络相对于输入的闭式梯度，使基于梯度的优化可用于在多面体约束下选择控制输入。
应用条件梯度方法，最小化由神经网络近似的代价函数，约束通过依赖于状态的多面体集实现。
提出一种神经网络架构，其输出为输入约束顶点的凸组合，通过Softmax激活输出参数化，以确保可行性。
通过神经网络实现从状态到参数的映射，生成天然位于输入约束集合内的控制输入。
使用序列动态规划和Levenberg-Marquardt算法在生成的训练数据上训练神经网络。
在具有线性系统的数值示例中验证了两种方法，与标准模型预测控制进行性能对比。

实验结果

研究问题

RQ1如何利用神经网络近似最优控制律，同时在实时应用中确保满足多面体输入约束？
RQ2能否利用神经网络的闭式梯度，实现无需离散化的控制输入选择约束优化？
RQ3何种神经网络架构可确保控制输入在多面体约束集合内，且与输入状态无关？
RQ4在模型预测控制问题中，所提方法在计算速度、约束满足性和次优性方面如何比较？
RQ5当因时间限制而提前终止优化时，所提方法是否仍能保证递归可行性与状态约束满足？

主要发现

基于梯度的方法在标准笔记本上每轮迭代约耗时0.03秒，实现了实时应用。
基于梯度方法得到的状态和输入轨迹与最优MPC解几乎无法区分，次优性极低。
Softmax方法的速度比基于梯度的方法快逾100倍，控制输入生成时间仅需毫秒的几分之一。
两种方法均确保了输入约束满足，其中基于梯度的方法还通过递归可及集计算保证了状态约束的遵守。
Softmax架构通过参数化输入顶点的凸组合，成功生成了可行输入，确保了先验可行性。
数值结果表明，动态规划链中的近似误差并未显著降低性能，表明所提方法具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。