QUICK REVIEW

[论文解读] How hard is it to cross the room? -- Training (Recurrent) Neural Networks to steer a UAV

Klaas Kelchtermans, Tinne Tuytelaars|Lirias (KU Leuven)|Feb 24, 2017

Advanced Vision and Imaging参考文献 3被引用 30

一句话总结

本文提出通过模仿学习训练循环神经网络（特别是LSTM）以在模拟的室内环境中控制无人机进行避障和穿越房间。通过使用逐窗截断的时间反向传播（WW-TBPTT）并微调预训练的卷积神经网络，该方法在数据效率和收敛速度方面优于端到端训练，展现出记忆机制与迁移学习在序列视觉导航任务中显著提升性能的能力。

ABSTRACT

This work explores the feasibility of steering a drone with a (recurrent) neural network, based on input from a forward looking camera, in the context of a high-level navigation task. We set up a generic framework for training a network to perform navigation tasks based on imitation learning. It can be applied to both aerial and land vehicles. As a proof of concept we apply it to a UAV (Unmanned Aerial Vehicle) in a simulated environment, learning to cross a room containing a number of obstacles. So far only feedforward neural networks (FNNs) have been used to train UAV control. To cope with more complex tasks, we propose the use of recurrent neural networks (RNN) instead and successfully train an LSTM (Long-Short Term Memory) network for controlling UAVs. Vision based control is a sequential prediction problem, known for its highly correlated input data. The correlation makes training a network hard, especially an RNN. To overcome this issue, we investigate an alternative sampling method during training, namely window-wise truncated backpropagation through time (WW-TBPTT). Further, end-to-end training requires a lot of data which often is not available. Therefore, we compare the performance of retraining only the Fully Connected (FC) and LSTM control layers with networks which are trained end-to-end. Performing the relatively simple task of crossing a room already reveals important guidelines and good practices for training neural control networks. Different visualizations help to explain the behavior learned.

研究动机与目标

研究使用循环神经网络（RNN）在无人机上实现端到端视觉导航的可行性。
解决在来自前向摄像头的高相关性序列视觉数据上训练RNN所面临的挑战。
评估使用自动化专家生成恢复轨迹的模仿学习的有效性。
比较端到端训练与微调预训练网络在数据效率和性能方面的差异。
为使用视觉输入进行自主无人机导航的深度神经网络训练提供实用指导。

提出的方法

构建了用于无人机导航的仿真环境，重点在于穿越带有固定和可变障碍物的房间。
使用具备行为仲裁功能的自动化专家生成专家示范和恢复轨迹，从而减少人工标注需求。
采用模仿学习结合DAgger迭代，利用恢复摄像头缓解训练过程中的分布偏移问题。
采用逐窗截断的时间反向传播（WW-TBPTT），以减少RNN训练中由序列相关性引起偏差。
仅对预训练的Inception网络微调全连接层和LSTM层，而非进行端到端训练。
可视化网络行为与控制策略，以解释学习到的导航策略。

实验结果

研究问题

RQ1循环神经网络（特别是LSTM）是否能仅通过视觉输入有效学习控制无人机在室内环境中导航？
RQ2与标准TBPTT相比，逐窗截断的时间反向传播（WW-TBPTT）在减少因输入相关性导致的训练不稳定性方面表现如何？
RQ3与端到端训练相比，微调预训练的CNN特征是否能提升性能和数据效率？
RQ4具备恢复轨迹生成能力的自动化专家在缓解DAgger迭代过程中的分布偏移方面效果如何？
RQ5恢复数据与多视角摄像头输入在提升对未知环境泛化能力方面发挥什么作用？

主要发现

仅在预训练ImageNet模型上微调最后的全连接层和LSTM层，其在模仿损失和收敛速度方面显著优于端到端训练。
WW-TBPTT减少了标准滑动窗口TBPTT中存在的序列偏差，从而实现更稳定的RNN训练，尽管计算成本有所增加。
使用自动化专家的DAgger迭代在Room Crossing Two数据集上表现不可靠，可能由于两种新偏差：学生生成轨迹导致的分布偏移，以及专家标注不一致。
来自多样化轨迹和多角度摄像头的恢复数据显著提升了对未知房间的泛化能力，尤其在与自动化专家结合时效果更明显。
使用预训练的Inception网络作为视觉编码器，使模型在远少于端到端训练所需数据量的情况下实现优异性能，凸显了迁移学习的价值。
可视化结果表明，网络学习到了有意义的导航策略，如绕过障碍物的路径规划和在复杂布局中的一致避障行为。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。