[论文解读] CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction
CNN-SLAM 将 CNN 预测的密集深度图与直接单目 SLAM 相结合,实现来自单视图的实时、尺度感知、密集单目重建和语义融合。
Given the recent advances in depth prediction from Convolutional Neural Networks (CNNs), this paper investigates how predicted depth maps from a deep neural network can be deployed for accurate and dense monocular reconstruction. We propose a method where CNN-predicted dense depth maps are naturally fused together with depth measurements obtained from direct monocular SLAM. Our fusion scheme privileges depth prediction in image locations where monocular SLAM approaches tend to fail, e.g. along low-textured regions, and vice-versa. We demonstrate the use of depth prediction for estimating the absolute scale of the reconstruction, hence overcoming one of the major limitations of monocular SLAM. Finally, we propose a framework to efficiently fuse semantic labels, obtained from a single frame, with dense SLAM, yielding semantically coherent scene reconstruction from a single view. Evaluation results on two benchmark datasets show the robustness and accuracy of our approach.
研究动机与目标
- 动机:利用 CNN 预测的深度图来解决单目 SLAM 中的尺度不确定性和稀疏性。
- 提出一个融合框架,将 CNN 深度与直接的单目 SLAM 相结合,以实现密集重建。
- 实现带尺度校正的相机位姿估计和在具有挑战性的条件下的鲁棒跟踪(低纹理、旋转等)。
- 扩展框架,将语义标签与密集单目 SLAM 融合,形成语义上连贯的三维场景。
提出的方法
- 用一个用于深度回归训练的 CNN(以 ResNet-50 为骨干网并进行上采样)为关键帧预测密集深度图。
- 通过焦距缩放因子对相机内参差异对 CNN 深度进行调整。
- 基于 CNN 置信度和跨帧一致性计算深度不确定性图。
- 使用当前帧和附近关键帧进行小基线立体匹配来细化 CNN 深度。
- 跨关键帧融合深度和不确定性图,以通过位姿图优化构建密集三维模型。
- 可选地训练一个语义分割网络,并通过 Global Segmentation Model 将逐帧语义标签融入到三维模型中。
实验结果
研究问题
- RQ1CNN 预测的深度在没有外部先验的情况下,是否能够实现具有准确绝对尺度的单目 SLAM?
- RQ2将 CNN 深度与直接单目 SLAM 融合是否提高位姿精度和深度密度,尤其在低纹理区域?
- RQ3该框架是否能够稳健处理纯旋转运动,在传统立体深度估计失败的情况下?
- RQ4从单一视角将语义标签有效地融合到单目密集 SLAM 重建中有多高的效果?
主要发现
- 该方法在多个序列上比若干单目 SLAM 基线获得更高的位姿轨迹精度。
- 从 CNN 预测细化的密集深度图在密度和精度上优于纯 CNN 或传统 SLAM 方法。
- 通过小基线立体的深度细化提升深度边缘,减少 CNN 预测中的模糊,从而提高重建质量。
- 在纯旋转运动下,该方法保持鲁棒性,在基线法深度估计存在问题的场景中尤为明显。
- 语义标签可以融入到三维重构中,生成语义上连贯的场景模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。