Skip to main content
QUICK REVIEW

[论文解读] Semi-Dense 3D Semantic Mapping from Monocular SLAM

Xuanpeng Li, Rachid Belaroussi|arXiv (Cornell University)|Nov 13, 2016
Robotics and Sensor-Based Localization参考文献 7被引用 47
一句话总结

本文提出了一种基于单目SLAM与深度学习的半密集3D语义地图构建系统,其中从关键帧获得的2D语义标签被传递到全局一致的3D地图中,并通过基于CRF的正则化进行优化。该方法在室内和室外数据集上实现了约10Hz的实时性能,提升了2D语义分割的准确性,且无需密集的逐帧标注或深度传感器。

ABSTRACT

The bundle of geometry and appearance in computer vision has proven to be a promising solution for robots across a wide variety of applications. Stereo cameras and RGB-D sensors are widely used to realise fast 3D reconstruction and trajectory tracking in a dense way. However, they lack flexibility of seamless switch between different scaled environments, i.e., indoor and outdoor scenes. In addition, semantic information are still hard to acquire in a 3D mapping. We address this challenge by combining the state-of-art deep learning method and semi-dense Simultaneous Localisation and Mapping (SLAM) based on video stream from a monocular camera. In our approach, 2D semantic information are transferred to 3D mapping via correspondence between connective Keyframes with spatial consistency. There is no need to obtain a semantic segmentation for each frame in a sequence, so that it could achieve a reasonable computation time. We evaluate our method on indoor/outdoor datasets and lead to an improvement in the 2D semantic labelling over baseline single frame predictions.

研究动机与目标

  • 仅使用单目相机在室内和室外环境中实现鲁棒的3D语义地图构建。
  • 通过仅在选定的关键帧上执行2D语义分割而非每一帧,降低计算成本。
  • 通过利用重建地图中的3D几何一致性与空间上下文信息,提升2D语义分割的准确性。
  • 实现在室内与室外场景之间无缝切换,无需重新校准或更换传感器。
  • 将基于深度学习的语义分割与半密集单目SLAM相结合,实现实时在线的3D场景理解。

提出的方法

  • 系统使用LSD-SLAM从单目视频流中实现实时半密集3D重建,并以关键帧作为跟踪参考。
  • 仅在关键帧上使用基于DeepLab的卷积神经网络执行2D语义分割,避免逐帧推理以降低计算负载。
  • 利用SLAM系统提供的几何对应关系与深度估计,将2D关键帧的语义标签投影到3D空间。
  • 在最终的3D地图上应用密集的条件随机场(CRF),对标签进行正则化,以减少异常值并增强空间一致性。
  • 该方法利用SLAM输出的几何结构来提升语义标注效果,尤其在深度模糊区域表现更优。
  • 系统在NYUv2(室内)和KITTI(室外)数据集上进行评估,使用原始RGB序列,未依赖深度传感器。

实验结果

研究问题

  • RQ1能否通过单目SLAM有效将关键帧的2D语义分割结果传递到3D半密集地图中?
  • RQ23D重建提供的几何一致性如何提升2D语义标注的准确性?
  • RQ3单目SLAM系统能否实现在室内与室外环境间无缝的3D语义地图构建?
  • RQ4基于CRF的正则化对3D语义地图质量与标注一致性有何影响?
  • RQ5基于关键帧的2D推理在多大程度上可降低计算成本,同时保持高语义准确性?

主要发现

  • 所提方法在NYUv2测试集上达到68.5%的平均类别准确率,优于Hermans等人和RGBD-SF等基线方法。
  • 经过CRF正则化后,方法在NYUv2上的平均类别准确率提升至70.3%,证明了几何正则化的有效性。
  • 在KITTI室外数据集上,系统在56个关键帧内重建了包含约160万个点的3D地图,保持了约10Hz的实时性能。
  • 与单帧预测相比,该方法在深度模糊区域和纹理缺失区域的2D语义分割性能得到提升。
  • 通过避免逐帧语义分割,显著降低了计算成本,实现在CPU+GPU硬件平台上的实时运行。
  • CRF正则化显著减少了标签异常值,并提升了3D语义地图的空间一致性,尤其对初始准确率较低的物体(如'bed'和'books')效果明显。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。