[论文解读] Obstacle Avoidance through Deep Networks based Intermediate Perception
该论文提出了一种两阶段深度学习方法,通过首先预测深度和表面法线作为中间几何表示,再利用这些表示预测三维轨迹,实现单目障碍物避让。该方法相比直接从RGB图像预测轨迹的基线方法,准确率提高了20%,并在室内数据集和真实四旋翼飞行中表现出良好的泛化能力,使用消费级GPU可在25 Hz的帧率下实现实时推理。
Obstacle avoidance from monocular images is a challenging problem for robots. Though multi-view structure-from-motion could build 3D maps, it is not robust in textureless environments. Some learning based methods exploit human demonstration to predict a steering command directly from a single image. However, this method is usually biased towards certain tasks or demonstration scenarios and also biased by human understanding. In this paper, we propose a new method to predict a trajectory from images. We train our system on more diverse NYUv2 dataset. The ground truth trajectory is computed from the designed cost functions automatically. The Convolutional Neural Network perception is divided into two stages: first, predict depth map and surface normal from RGB images, which are two important geometric properties related to 3D obstacle representation. Second, predict the trajectory from the depth and normal. Results show that our intermediate perception increases the accuracy by 20% than the direct prediction. Our model generalizes well to other public indoor datasets and is also demonstrated for robot flights in simulation and experiments.
研究动机与目标
- 解决基于人类示范的数据集在特定场景和任务上存在偏差的问题。
- 改善在无纹理或低纹理环境中传统SfM和vSLAM方法失效时的单目障碍物避让性能。
- 开发一种无需依赖人工标注转向指令的、鲁棒且可泛化的单目RGB图像到轨迹预测方法。
- 仅使用单目视觉实现实时、高精度的复杂室内环境导航。
- 在仿真和真实硬件平台上,验证模型在不同数据集和真实飞行中的泛化能力。
提出的方法
- 通过在RGB-D图像上应用三维代价函数,自动生成真实轨迹,从而摆脱对人类示范的依赖。
- 训练一个两阶段卷积神经网络(CNN):首先从RGB图像中预测深度图和表面法线图作为中间感知表示。
- 将预测得到的深度图和法线图作为输入,送入第二个CNN,回归出机器人局部坐标系下的三维轨迹。
- 利用几何先验(深度和表面法线)提升三维场景理解能力与轨迹预测精度。
- 在NYUv2数据集上进行训练,采用基于代价函数优化的自监督轨迹标注方法。
- 在配备GPU的实时推理系统上,将训练好的模型部署于仿真四旋翼和真实的Parrot Bebop无人机上。
实验结果
研究问题
- RQ1我们能否在无需人类示范的情况下,仅从RGB-D数据中自监督地生成准确的真实轨迹?
- RQ2与直接从RGB图像到轨迹的端到端学习相比,预测中间几何表示(深度和表面法线)是否能提升轨迹预测的准确性?
- RQ3该两阶段中间感知方法在多样化的室内环境和数据集之间是否具有良好的泛化能力?
- RQ4该模型能否在动态仿真和真实机器人飞行中实现实时、鲁棒的障碍物避让?
- RQ5在障碍物避让的准确率和泛化能力方面,直接预测与中间感知方法之间存在多大的性能差距?
主要发现
- 与直接从RGB图像到轨迹的预测方法相比,两阶段中间感知方法将轨迹预测准确率提高了20%。
- 该模型在NYUv2以外的公开室内数据集上也表现出良好的泛化能力,证明了其对领域偏移的鲁棒性。
- 在仿真环境中,四旋翼飞行器平均与障碍物保持0.98米距离,并成功通过了宽度为0.78米的门洞,尽管其自身宽度达0.52米。
- 系统以25 Hz的帧率实时运行(在GTX 980 Ti GPU上平均推理时间为38.5ms),适用于实时控制。
- 真实四旋翼飞行实验表明,该模型可在走廊、弯道及障碍物密集场景中预测出合理轨迹。
- 尽管真实飞行中存在状态估计不稳定的情况,轨迹预测系统仍保持功能正常且有效,表明其具备强大的感知能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。