Skip to main content
QUICK REVIEW

[论文解读] Deep Neural Network for Real-Time Autonomous Indoor Navigation

Dong Ki Kim, Tsuhan Chen|arXiv (Cornell University)|Nov 15, 2015
Robotics and Sensor-Based Localization参考文献 17被引用 98
一句话总结

本文提出了一种基于卷积神经网络(ConvNet)模仿专家飞手行为的实时、单目摄像头深度强化学习系统,用于四旋翼无人机的自主室内导航。该系统在多种室内环境中成功定位目标(如书包)的准确率达70–80%,展现出鲁棒性,且无需三维地图或测距传感器。

ABSTRACT

Autonomous indoor navigation of Micro Aerial Vehicles (MAVs) possesses many challenges. One main reason is that GPS has limited precision in indoor environments. The additional fact that MAVs are not able to carry heavy weight or power consuming sensors, such as range finders, makes indoor autonomous navigation a challenging task. In this paper, we propose a practical system in which a quadcopter autonomously navigates indoors and finds a specific target, i.e., a book bag, by using a single camera. A deep learning model, Convolutional Neural Network (ConvNet), is used to learn a controller strategy that mimics an expert pilot's choice of action. We show our system's performance through real-time experiments in diverse indoor locations. To understand more about our trained network, we use several visualization techniques.

研究动机与目标

  • 实现无需GPS或重型传感器的微型飞行器(MAVs)自主室内导航。
  • 开发一种仅使用单目摄像头的计算高效系统,以实现实时决策。
  • 通过模仿学习训练深度学习模型,以复现专家飞手的操作行为。
  • 在具有不同外观和几何结构的多样化室内环境中评估系统性能。
  • 利用可视化技术解释深度网络中学习到的表征。

提出的方法

  • 训练卷积神经网络(ConvNet)将单目摄像头的视觉输入映射为飞行指令(如前进、停止、转向)。
  • 收集了7个具有不同外观特征的室内场景数据集,每个场景包含独特的目标物体(如书包)。
  • 采用模仿学习:网络基于专家飞手操作数据进行训练,以复现人类决策过程。
  • 在类别可视化过程中应用L2正则化和高斯模糊,以稳定并清晰化学习到的特征。
  • 采用图像特定的类别显著性图,识别对分类决策影响最大的图像区域。
  • 在5个测试场景中开展实时飞行实验,以评估模型的泛化能力和鲁棒性。

实验结果

研究问题

  • RQ1单目摄像头与深度学习系统是否能在无需三维地图或测距传感器的情况下实现实时、鲁棒的室内导航?
  • RQ2训练好的模型在具有不同外观和布局的未见过的室内环境中泛化能力如何?
  • RQ3该网络学习了哪些视觉特征以区分不同的飞行指令?
  • RQ4显著性图如何反映特定图像区域在决策过程中的重要性?
  • RQ5可视化技术能否揭示策略网络内部表征的有意义洞察?

主要发现

  • 该系统在4个已知的室内场景(Test Loc 1–4)中实现了70–80%的实时导航成功率。
  • 模型在未见过的环境中(Test Loc 3和4)实现了泛化,尽管此前未接触过这些场景,仍取得8/10的成功率。
  • 在Test Loc 5中性能下降至60%(3/5),该场景具有最高的视觉多样性,表明系统对高视觉差异较为敏感。
  • 类别可视化显示,网络为每种动作学习了不同的特征,且对“停止”指令能清晰检测目标(如书包)。
  • 显著性图突出显示边缘是影响分类的关键特征,表明边缘检测是网络决策过程中的关键组成部分。
  • 网络对“左转”和“右转”指令的区分能力较弱,表明可能需要为这些动作提供更多训练数据。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。