[论文解读] Learning to Fly via Deep Model-Based Reinforcement Learning
本文提出一种基于模型的强化学习方法,通过从原始传感器数据中学习潜在动力学模型,完全端到端地训练四旋翼飞行控制器,仅需不到30分钟的真实世界经验。该方法采用可微分的随机轨迹滚动和在树莓派上的在线推理,实现无需先验物理知识或外部模拟器的实时控制。
Learning to control robots without requiring engineered models has been a long-term goal, promising diverse and novel applications. Yet, reinforcement learning has only achieved limited impact on real-time robot control due to its high demand of real-world interactions. In this work, by leveraging a learnt probabilistic model of drone dynamics, we learn a thrust-attitude controller for a quadrotor through model-based reinforcement learning. No prior knowledge of the flight dynamics is assumed; instead, a sequential latent variable model, used generatively and as an online filter, is learnt from raw sensory input. The controller and value function are optimised entirely by propagating stochastic analytic gradients through generated latent trajectories. We show that "learning to fly" can be achieved with less than 30 minutes of experience with a single drone, and can be deployed solely using onboard computational resources and sensors, on a self-built drone.
研究动机与目标
- 实现无需预先了解无人机动力学或人工设计模拟器的四旋翼飞行控制器端到端训练。
- 通过利用学习到的动力学模型实现数据高效的策略优化,减少对大量真实世界轨迹的依赖。
- 仅使用原始传感器输入,在低成本嵌入式系统(树莓派4)上实现端到端的控制流水线(包括模型推理和策略执行)。
- 证明在学习到的模拟器中训练的控制器能够在部分且噪声较大的观测条件下泛化到真实世界飞行。
- 通过直接从原始传感器序列训练动力学模型,避免使用手工设计的模拟器,从而弥合仿真到现实的差距。
提出的方法
- 基于变分推断的潜在状态空间模型(LSSM)从原始传感器观测(如IMU、GPS)端到端训练,以在低维潜在空间中表示无人机的动力学。
- 该动力学模型具有可微性,通过重参数化技巧对随机变量进行反向传播,用于通过反向传播生成随机轨迹以进行策略优化。
- 通过在学习到的动力学模型和潜在轨迹中传播,利用可微分的强化学习算法(如SAC或类似PPO)进行策略和价值函数的训练,获得随机分析梯度。
- 在线推理网络(滤波器)使用条件后验分布从观测中估计当前潜在状态,实现在无人机上的实时状态估计。
- 策略通过使用来自学习模型的滚动轨迹进行训练,奖励从潜在状态中设计,采用可微分的强化学习算法(如SAC或PPO类方法)。
- 所有组件——动力学模型、推理网络、策略和价值函数——均实现为深度神经网络,并通过随机梯度下降联合优化。
实验结果
研究问题
- RQ1是否可以仅使用原始传感器数据,且无需对无人机动力学或物理特性有先验知识,训练无人机飞向目标?
- RQ2学习到的潜在动力学模型在真实无人机上实现数据高效、实时控制的有效性如何,且仅需极少的真实世界交互?
- RQ3在学习到的模拟器中训练的基于模型的强化学习策略是否能无需模拟到现实的领域随机化或微调,直接泛化到真实世界部署?
- RQ4在低功耗嵌入式系统(如树莓派4)上运行完整基于模型的控制流水线的计算和内存开销如何?
- RQ5可微分的、端到端学习的动力学模型在机器人控制中在多大程度上可以替代手工设计的模拟器?
主要发现
- 控制器仅使用单架无人机的25,000个模型步(相当于约30分钟的真实飞行)即成功训练完成,展现出极高的数据效率。
- 整个控制流水线(包括动力学模型、推理网络和策略)已成功部署并实时运行在树莓派4上,仅依赖机载传感器。
- 该方法仅使用原始IMU和GPS数据,实现了稳定的目标导向飞行,无需完整状态观测或对无人机动力学的先验知识。
- 学习到的潜在动力学模型在噪声和部分观测条件下实现了精确的状态估计,支持鲁棒的在线控制。
- 该方法在样本效率方面优于模型无监督基线,并在无需架构更改的情况下在不同无人机配置间表现出泛化能力。
- 通过学习模型实现的随机分析梯度有效支持了策略优化,且无需依赖奖励塑造或领域随机化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。