[论文解读] Deep Drone Racing: Learning Agile Flight in Dynamic Environments
本文提出一种基于视觉的混合系统,利用卷积神经网络(CNN)从原始图像中预测航路点和速度,再通过最小 jerk 轨迹规划器和机载控制器执行。该方法实现了无需显式地图的完全自主、高动态无人机竞速,可在高速、遮挡和移动门等复杂条件下实现优于最先进系统和人类飞行员的鲁棒性与精度。
Autonomous agile flight brings up fundamental challenges in robotics, such as coping with unreliable state estimation, reacting optimally to dynamically changing environments, and coupling perception and action in real time under severe resource constraints. In this paper, we consider these challenges in the context of autonomous, vision-based drone racing in dynamic environments. Our approach combines a convolutional neural network (CNN) with a state-of-the-art path-planning and control system. The CNN directly maps raw images into a robust representation in the form of a waypoint and desired speed. This information is then used by the planner to generate a short, minimum-jerk trajectory segment and corresponding motor commands to reach the desired goal. We demonstrate our method in autonomous agile flight scenarios, in which a vision-based quadrotor traverses drone-racing tracks with possibly moving gates. Our method does not require any explicit map of the environment and runs fully onboard. We extensively test the precision and robustness of the approach in simulation and in the physical world. We also evaluate our method against state-of-the-art navigation approaches and professional human drone pilots.
研究动机与目标
- 解决在传统 SLAM 和状态估计因运动模糊与漂移而失效的动态环境中,实现高速自主无人机飞行的挑战。
- 通过用 CNN 实现从感知到动作的直接映射,克服全局状态估计的局限性,替代基于位姿的导航方式。
- 仅依赖机载计算,实现对复杂、杂乱且不断变化的环境(如带有移动门的无人机竞速赛道)的鲁棒、实时导航。
- 开发一种轻量化、完全集成于机载的系统,实现感知与控制的融合,支持敏捷飞行,无需依赖预建地图或昂贵传感器。
- 证明基于学习的感知在动态场景中可超越传统视觉里程计和工程化控制流水线,甚至在可靠性上超越中等水平的人类飞行员。
提出的方法
- 训练一个紧凑的卷积神经网络(CNN),直接将原始 RGB 图像映射为无人机机体坐标系下的期望航路点与速度。
- 将预测的航路点与速度作为最先进轨迹生成系统中的局部目标,该系统计算最小 jerk 轨迹及相应的电机指令。
- 将 CNN 与实时控制栈集成,通过跟踪生成的轨迹段,确保飞行稳定且具备高敏捷性。
- 端到端训练 CNN 以遵循全局参考轨迹,使无人机通过模仿学习掌握复杂路径的导航能力。
- 完全在机载系统中运行,消除对外部定位或地图基础设施的依赖。
- 利用机体坐标系下的控制指令表示,使系统对状态估计漂移具有鲁棒性,而这类问题会严重困扰传统基于位姿的系统。
实验结果
研究问题
- RQ1基于学习的感知系统是否能在无显式环境地图的情况下,实现动态环境中敏捷的视觉无人机竞速?
- RQ2在高速飞行与遮挡条件下,基于 CNN 的感知模块相较于传统视觉里程计,在鲁棒性与准确性方面表现如何?
- RQ3单个 CNN 在未重新训练的情况下,对环境中的动态变化(如移动门)具有多大程度的泛化能力?
- RQ4端到端的感知-控制系统是否能在真实竞速场景中超越最先进的手工设计导航流水线?
- RQ5在复杂动态赛道中,该自主系统的性能与人类飞行员相比,在速度、精度与故障率方面表现如何?
主要发现
- 所提系统在仿真与真实实验中均成功导航了带有移动门的无人机竞速赛道,表现出对动态变化的强鲁棒性。
- 基于 CNN 的方法优于基于视觉里程计(VIO)的基线系统,后者在高速下出现严重漂移,且无法可靠完成赛道。
- 该系统在遮挡与动态场景中,精度更高且故障率更低,优于最先进的人工设计导航系统。
- 尽管人类飞行员采取了激进操作,自主无人机仍以更快的速度完成赛道,且碰撞次数更少。
- 网络在推理阶段能泛化到未见过的门运动模式,即使训练数据中仅包含单一类型门运动,表明其对动态变化具备强大的零样本泛化能力。
- 系统完全在机载运行,无需外部定位或地图支持,证明了在复杂环境中实现实时、紧凑且鲁棒的视觉导航的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。