[论文解读] Dense RGB SLAM with Neural Implicit Maps
这项工作提出了一个密集的仅RGB SLAM系统,使用由多分辨率特征体积和 MLP 解码器表示的神经隐式地图,与相机位姿通过光度渲染和多尺度基于补丁的扭曲损失共同优化。它在基准测试中实现了接近状态的结果,并且在某些方面可以超越一些 RGB-D 方法。
There is an emerging trend of using neural implicit functions for map representation in Simultaneous Localization and Mapping (SLAM). Some pioneer works have achieved encouraging results on RGB-D SLAM. In this paper, we present a dense RGB SLAM method with neural implicit map representation. To reach this challenging goal without depth input, we introduce a hierarchical feature volume to facilitate the implicit map decoder. This design effectively fuses shape cues across different scales to facilitate map reconstruction. Our method simultaneously solves the camera motion and the neural implicit map by matching the rendered and input video frames. To facilitate optimization, we further propose a photometric warping loss in the spirit of multi-view stereo to better constrain the camera pose and scene geometry. We evaluate our method on commonly used benchmarks and compare it with modern RGB and RGB-D SLAM systems. Our method achieves favorable results than previous methods and even surpasses some recent RGB-D SLAM methods.The code is at poptree.github.io/DIM-SLAM/.
研究动机与目标
- 通过使用不带深度传感器的 RGB 输入,激发并实现带神经隐式地图的密集视觉 SLAM。
- 提出一个分层的多分辨率特征体积,以支持鲁棒且可扩展的隐式场景表示。
- 通过可微渲染和多视图光度约束,联合优化相机轨迹与隐式地图。
- 开发一个在图像补丁上具有鲁棒性的扭曲损失,以处理视角相关的光照,同时实现几何一致性。
提出的方法
- 使用可学习的多分辨率特征体积 {V_l} 和用于深度与颜色预测的 MLP 解码器 Phi 来表示场景。
- 从所有体积级别沿视线取样特征,连接成 F(p),再输入 Phi 以预测占据概率 o_p 和颜色 c_p。
- 通过沿射线的分层采样使用权重 w_i 和方程 old D tilde = sum w_i z_i, I tilde = sum w_i c_i 来渲染深度和颜色。
- 在一组像素上,对渲染颜色与观测颜色之间应用光度渲染损失 L_render。
- 引入光度扭曲损失 L_warping,通过估计的位姿和深度在不同视图之间投影像素,覆盖图像补丁并使用 SSIM 以缓解视角相关光照效应。
- 使用可见性掩码过滤具有足够跨视图可见性的像素,并对深度引入带边缘感知加权的平滑正则化项 L_smooth。
实验结果
研究问题
- RQ1仅RGB的视觉SLAM是否能够利用神经隐式地图实现具有竞争力的密集重建和相机跟踪?
- RQ2分层的多分辨率特征体积是否能提高仅RGB输入的地图质量和跟踪鲁棒性?
- RQ3在没有深度测量的情况下,多尺度基于补丁的扭曲损失在约束位姿和几何关系方面有多高的效果?
- RQ4在使用一个与两个 GPU 以及不同特征体积配置时,在内存、计算和精度方面有哪些权衡?
主要发现
- 提出的带神经隐式地图的仅RGB密集 SLAM 在基准数据集上实现了有利的跟踪和建图结果,在某些情况下超过了一些 RGB-D 方法。
- 六级分层特征体积(8 cm 到 64 cm)配合共享的 MLP 解码器,相比低尺度配置提升了鲁棒性和精度。
- 多尺度基于补丁的扭曲损失通过减轻视角相关光照效应,在 RGB 输入下改善了位姿和几何约束。
- 该方法在 Replica/EuRoC 数据集上显示出强劲的跟踪性能,在 RGB-D 数据集上也有竞争力的结果且不依赖深度输入。
- 该方法在两GPU设置下实现接近实时的性能,并且在某些基线方法中显示出更低的内存和 FLOPs,同时在若干场景中提供更高质量的重建。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。