QUICK REVIEW

[论文解读] Deep Reinforcement Learning for Six Degree-of-Freedom Planetary Powered Descent and Landing

Brian Gaudet, Richard Linares|arXiv (Cornell University)|Oct 20, 2018

Spacecraft Dynamics and Control参考文献 26被引用 32

一句话总结

本文提出了一种基于深度强化学习（PPO）的六自由度（6-DOF）火星动力下降与着陆集成制导与控制系统，直接将估计的着陆器状态映射为发动机推力指令。该方法在存在噪声和不确定性的情况下仍能实现精确着陆精度（误差 <5 m），燃料消耗比最优GPOPS解高18%，但相较于传统系统具有更高的灵活性和实时可行性。

ABSTRACT

Future Mars missions will require advanced guidance, navigation, and control algorithms for the powered descent phase to target specific surface locations and achieve pinpoint accuracy (landing error ellipse $

研究动机与目标

开发一种用于六自由度动力下降的集成制导与控制系统，实现火星精确着陆误差小于5米。
通过引入完整的航天器动力学（包括姿态和旋转控制），克服三自由度（3-DOF）模型的局限性。
设计一种策略，利用强化学习将实时状态估计映射为发动机推力指令。
在高保真仿真中确保对传感器噪声和系统参数不确定性的鲁棒性。
展示相对于现有系统（如MSL和DR/DV算法）的可行性与性能提升。

提出的方法

使用近端策略优化（PPO），一种策略梯度强化学习方法，训练连续控制策略，将状态映射为推力指令。
为终端奖励和奖励塑造奖励分别使用独立的折扣率，以改善优化收敛性和性能。
集成基于速度场的奖励塑造函数，引导着陆器向目标前进，而无需完整掌握平动状态信息。
使用高保真模型模拟六自由度动力学，包括平动与转动运动、推力矢量控制以及惯性力。
在蒙特卡洛仿真环境中训练策略，初始条件多样化，包括9 km²和12 km²的部署椭圆。
采用Rao-Blackwellized粒子滤波器进行导航状态估计，其输出直接输入已训练策略，实现实时控制。

实验结果

研究问题

RQ1深度强化学习策略是否能在完整的六自由度动力下降场景中实现火星精确着陆精度（<5 m）？
RQ2在燃料效率和轨迹精度方面，六自由度策略与三自由度策略及最优GPOPS解相比表现如何？
RQ3对奖励塑造和终端奖励使用不同的折扣率，对策略优化和收敛性有何影响？
RQ4在真实着陆场景中，该学习策略对传感器噪声和系统参数不确定性的鲁棒性如何？
RQ5该策略能否有效泛化到训练分布之外的初始条件，例如大范围偏离距离？

主要发现

六自由度PPO策略在9 km²部署椭圆上实现了平均燃料消耗308 kg，标准差25 kg，最大消耗412 kg。
该策略对噪声和参数不确定性表现出鲁棒性，在多样化初始条件下均保持高着陆精度。
六自由度策略的燃料消耗比GPOPS最优解（250 kg）高出18%，但该差距归因于次优的奖励塑造函数，而非策略架构本身。
三自由度与六自由度策略在燃料消耗和轨迹性能上几乎完全一致，表明六自由度策略能从三自由度训练中良好泛化。
该策略实现了小于5 m的位置误差和低于2 m/s的着陆速度，姿态偏差极小，触地时旋转速度为零。
该系统计算开销轻量，每次控制更新仅需四次矩阵乘法，适用于飞行计算机。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。