[论文解读] Constraint-Informed Learning for Warm Starting Trajectory Optimization
该论文提出TOAST,一种基于最优性条件的约束感知学习框架,利用基于优势函数的决策聚焦损失函数,学习轨迹优化的热启动策略。通过使用拉格朗日损失函数训练神经网络以预测原始解和对偶解,TOAST加速了收敛过程并提高了约束满足度,与基线方法相比,计算时间减少30%以上,约束违反减少高达70%。
Future spacecraft and surface robotic missions require increasingly capable autonomy stacks for exploring challenging and unstructured domains, and trajectory optimization will be a cornerstone of such autonomy stacks. However, the nonlinear optimization solvers required remain too slow for use on relatively resource-constrained flight-grade computers. In this work, we turn towards amortized optimization, a learning-based technique for accelerating optimization run times, and present TOAST: Trajectory Optimization with Merit Function Warm Starts. Offline, using data collected from a simulation, we train a neural network to learn a mapping to the full primal and dual solutions given the problem parameters. Crucially, we build upon recent results from decision-focused learning and present a set of decision-focused loss functions using the notion of merit functions for optimization problems. We show that training networks with such constraint-informed losses can better encode the structure of the trajectory optimization problem and jointly learn to reconstruct the primal-dual solution while yielding improved constraint satisfaction. Through numerical experiments on a Lunar rover problem and a 3-degrees-of-freedom Mars powered descent guidance problem, we demonstrate that TOAST outperforms benchmark approaches in terms of both computation times and network prediction constraint satisfaction.
研究动机与目标
- 解决资源受限的飞行级计算机上非线性轨迹优化的计算瓶颈问题。
- 通过将问题结构融入损失函数,提升轨迹优化中学习到的热启动策略的约束满足度。
- 开发一种联合学习原始解与对偶解的方法,同时保持物理与安全约束。
- 通过使用决策聚焦损失函数的摊销学习,加速在线优化过程。
- 在月球车与火星动力下降问题中,展示优于基线学习方法与传统热启动策略的性能。
提出的方法
- 离线训练神经网络,将问题参数映射为轨迹优化问题的完整原始解与对偶解。
- 设计基于优势函数的决策聚焦损失函数,将拉格朗日函数及其梯度结合,以编码优化结构。
- 使用拉格朗日MSE损失、带梯度的拉格朗日损失以及标准拉格朗日损失函数,对网络进行具有约束感知监督的训练。
- 将训练好的网络用于为序列二次规划(SQP)求解器提供热启动,减少所需迭代次数。
- 整合原始变量与对偶变量的预测结果,确保与KKT条件一致,从而提升收敛性。
- 在两个真实问题上进行评估:六自由度月球车模型预测控制(MPC)与三自由度火星动力下降制导问题。
实验结果
研究问题
- RQ1基于优势函数的决策聚焦学习是否能提升轨迹优化中学习到的热启动策略的约束满足度?
- RQ2在损失函数中引入拉格朗日函数及其梯度,是否能实现比标准MSE损失更快的收敛速度与更优的解质量?
- RQ3约束感知学习在空间任务轨迹优化中,能在多大程度上减少在线计算时间?
- RQ4在约束违反与解精度方面,TOAST相较于基线学习方法与传统热启动策略的性能表现如何?
- RQ5所提出方法在参数分布发生偏移的不同问题实例之间,是否具备良好的泛化能力?
主要发现
- 与原始MSE损失相比,TOAST采用拉格朗日MSE损失将约束违反百分比降低了8%,并将平均约束违反程度降低了近70%。
- 与原始MSE相比,拉格朗日MSE损失使状态轨迹MSE降低了25%,控制输入MSE降低了50%。
- 在Transformer架构中,TOAST采用拉格朗日MSE损失相比原始MSE实现了平均20毫秒的速度提升,并且相比直线热启动策略,将SQP运行时间减少了30%以上。
- 在前馈神经网络设置中,拉格朗日MSE损失将平均计算时间减少了超过2秒(从6.22秒降至4秒),实现了32%的加速。
- 在LSTM架构中,使用决策聚焦损失相比标准MSE损失,平均运行时间最高减少了63%。
- 即使在状态误差略有上升的情况下,TOAST在前馈网络中仍比原始MSE损失将约束违反减少了5.67%至8.21%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。