[论文解读] Semi-Dense 3D Semantic Mapping from Monocular SLAM
本文提出了一种基于单目SLAM与深度学习的半密集3D语义地图构建系统,其中从关键帧获得的2D语义标签被传递到全局一致的3D地图中,并通过基于CRF的正则化进行优化。该方法在室内和室外数据集上实现了约10Hz的实时性能,提升了2D语义分割的准确性,且无需密集的逐帧标注或深度传感器。
The bundle of geometry and appearance in computer vision has proven to be a promising solution for robots across a wide variety of applications. Stereo cameras and RGB-D sensors are widely used to realise fast 3D reconstruction and trajectory tracking in a dense way. However, they lack flexibility of seamless switch between different scaled environments, i.e., indoor and outdoor scenes. In addition, semantic information are still hard to acquire in a 3D mapping. We address this challenge by combining the state-of-art deep learning method and semi-dense Simultaneous Localisation and Mapping (SLAM) based on video stream from a monocular camera. In our approach, 2D semantic information are transferred to 3D mapping via correspondence between connective Keyframes with spatial consistency. There is no need to obtain a semantic segmentation for each frame in a sequence, so that it could achieve a reasonable computation time. We evaluate our method on indoor/outdoor datasets and lead to an improvement in the 2D semantic labelling over baseline single frame predictions.
研究动机与目标
- 仅使用单目相机在室内和室外环境中实现鲁棒的3D语义地图构建。
- 通过仅在选定的关键帧上执行2D语义分割而非每一帧,降低计算成本。
- 通过利用重建地图中的3D几何一致性与空间上下文信息,提升2D语义分割的准确性。
- 实现在室内与室外场景之间无缝切换,无需重新校准或更换传感器。
- 将基于深度学习的语义分割与半密集单目SLAM相结合,实现实时在线的3D场景理解。
提出的方法
- 系统使用LSD-SLAM从单目视频流中实现实时半密集3D重建,并以关键帧作为跟踪参考。
- 仅在关键帧上使用基于DeepLab的卷积神经网络执行2D语义分割,避免逐帧推理以降低计算负载。
- 利用SLAM系统提供的几何对应关系与深度估计,将2D关键帧的语义标签投影到3D空间。
- 在最终的3D地图上应用密集的条件随机场(CRF),对标签进行正则化,以减少异常值并增强空间一致性。
- 该方法利用SLAM输出的几何结构来提升语义标注效果,尤其在深度模糊区域表现更优。
- 系统在NYUv2(室内)和KITTI(室外)数据集上进行评估,使用原始RGB序列,未依赖深度传感器。
实验结果
研究问题
- RQ1能否通过单目SLAM有效将关键帧的2D语义分割结果传递到3D半密集地图中?
- RQ23D重建提供的几何一致性如何提升2D语义标注的准确性?
- RQ3单目SLAM系统能否实现在室内与室外环境间无缝的3D语义地图构建?
- RQ4基于CRF的正则化对3D语义地图质量与标注一致性有何影响?
- RQ5基于关键帧的2D推理在多大程度上可降低计算成本,同时保持高语义准确性?
主要发现
- 所提方法在NYUv2测试集上达到68.5%的平均类别准确率,优于Hermans等人和RGBD-SF等基线方法。
- 经过CRF正则化后,方法在NYUv2上的平均类别准确率提升至70.3%,证明了几何正则化的有效性。
- 在KITTI室外数据集上,系统在56个关键帧内重建了包含约160万个点的3D地图,保持了约10Hz的实时性能。
- 与单帧预测相比,该方法在深度模糊区域和纹理缺失区域的2D语义分割性能得到提升。
- 通过避免逐帧语义分割,显著降低了计算成本,实现在CPU+GPU硬件平台上的实时运行。
- CRF正则化显著减少了标签异常值,并提升了3D语义地图的空间一致性,尤其对初始准确率较低的物体(如'bed'和'books')效果明显。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。