QUICK REVIEW

[论文解读] Learning to Fly by Crashing

Dhiraj Gandhi, Lerrel Pinto|arXiv (Cornell University)|Apr 19, 2017

Robotic Path Planning Algorithms参考文献 17被引用 23

一句话总结

本文提出一种自监督学习方法，用于无人机导航，通过收集11,500次真实世界无人机坠毁事件，构建大规模负样本数据集。通过训练深度神经网络识别这些失败事件中具有坠毁特征的视觉模式，该方法能够有效规避障碍物——包括透明玻璃门和无纹理墙面——在杂乱环境中性能优于基于深度的基线方法，且达到人类操作水平。

ABSTRACT

How do you learn to navigate an Unmanned Aerial Vehicle (UAV) and avoid obstacles? One approach is to use a small dataset collected by human experts: however, high capacity learning algorithms tend to overfit when trained with little data. An alternative is to use simulation. But the gap between simulation and real world remains large especially for perception problems. The reason most research avoids using large-scale real data is the fear of crashes! In this paper, we propose to bite the bullet and collect a dataset of crashes itself! We build a drone whose sole purpose is to crash into objects: it samples naive trajectories and crashes into random objects. We crash our drone 11,500 times to create one of the biggest UAV crash dataset. This dataset captures the different ways in which a UAV can crash. We use all this negative flying data in conjunction with positive data sampled from the same trajectories to learn a simple yet powerful policy for UAV navigation. We show that this simple self-supervised model is quite effective in navigating the UAV even in extremely cluttered environments with dynamic obstacles including humans. For supplementary video see: https://youtu.be/u151hJaGKUo

研究动机与目标

通过收集大规模真实世界坠毁数据，而非依赖专家示范或仿真，解决无人机导航中的数据瓶颈问题。
探究是否可以利用负样本（基于坠毁）数据训练出有效的导航策略，而无需人工标注的轨迹。
评估在具有动态和复杂障碍物的复杂真实室内环境中，使用坠毁数据进行自监督学习的有效性。
证明通过学习失败（坠毁）经验，可优于传统基于深度的或模仿学习方法，在杂乱且无纹理的环境中表现更优。

提出的方法

设计了一架定制无人机，可自主采样随机轨迹并撞击物体，在多样化的室内环境中收集了11,500次坠毁事件。
数据集包含同一轨迹中的正样本（坠毁前）和负样本（坠毁时）片段，支持自监督学习。
使用标准深度神经网络进行二分类任务：预测给定图像序列是否会引发坠毁。
模型学习了多种故障模式的视觉表征，如撞击玻璃门、无纹理墙面和狭窄走廊。
将训练好的策略部署于真实世界测试环境，包括走廊、玻璃门和杂乱办公室空间，无需微调。
评估指标为飞行时长与无碰撞飞行距离，与基于深度的基线方法及人工控制飞行进行对比。

实验结果

研究问题

RQ1大规模真实世界坠毁数据能否有效用于训练无人机的自监督导航策略？
RQ2在复杂室内环境中，基于负样本（坠毁）的学习是否优于传统深度估计或模仿学习方法？
RQ3在训练过程中未见过的、具有挑战性障碍物（如玻璃门和无纹理墙面）的新环境中，基于坠毁数据训练的模型泛化能力如何？
RQ4简单的自监督模型能否在复杂、动态环境中实现与人类飞行员相当的性能？

主要发现

所提方法在全部六个测试环境中均优于基于深度的基线方法，包括透明玻璃门和无纹理走廊等深度传感器失效的场景。
在“带椅子的走廊”环境中，模型性能超过人工控制飞行，得益于其对障碍物间狭窄间隙的检测能力。
无人机在“走廊”环境中成功飞行超过3分钟，展示了长期飞行的稳定性和鲁棒性。
模型在新环境中的泛化能力良好，其中六个测试环境中的两个（NSH 4楼和NSH入口）在训练期间已出现过。
尽管未使用显式深度图或专家示范，该方法在复杂、杂乱环境中实现了与人类飞行员相当的性能。
结果证实，坠毁数据提供了关键且多样的负样本监督，使模型在具有挑战性的视觉导航任务中具备强大的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。