[论文解读] DDN-SLAM: Real-time Dense Dynamic Neural Implicit SLAM
DDN-SLAM 是一个实时密集神经隐式语义 SLAM 系统,面向动态场景;它通过联合语义编码与基于光流的掩模实现鲁棒跟踪与高质量建图,在 monocular、stereo 与 RGB-D 输入下以 20–30 Hz 的速度工作。
SLAM systems based on NeRF have demonstrated superior performance in rendering quality and scene reconstruction for static environments compared to traditional dense SLAM. However, they encounter tracking drift and mapping errors in real-world scenarios with dynamic interferences. To address these issues, we introduce DDN-SLAM, the first real-time dense dynamic neural implicit SLAM system integrating semantic features. To address dynamic tracking interferences, we propose a feature point segmentation method that combines semantic features with a mixed Gaussian distribution model. To avoid incorrect background removal, we propose a mapping strategy based on sparse point cloud sampling and background restoration. We propose a dynamic semantic loss to eliminate dynamic occlusions. Experimental results demonstrate that DDN-SLAM is capable of robustly tracking and producing high-quality reconstructions in dynamic environments, while appropriately preserving potential dynamic objects. Compared to existing neural implicit SLAM systems, the tracking results on dynamic datasets indicate an average 90% improvement in Average Trajectory Error (ATE) accuracy.
研究动机与目标
- 解决神经隐式 SLAM 中的动态对象干扰,以实现鲁棒、实时的密集建图。
- 利用语义先验和基于光流的验证来区分静态点与动态点。
- 开发深度引导的静态掩模和跳跃体素背景填充,以提升效率和质量。
- 支持单目、立体和 RGB-D 输入,并具回环检测与全局位姿图优化。
- 在多个动态/静态数据集上展示前沿的跟踪与重建性能。
提出的方法
- 结合语义坐标和哈希编码,通过深度和光流异常来分离静态点与动态点。
- 使用 YOLOv5 先验和基于 t 分布的异常值检验进行深度引导的静态掩模,以识别动态点。
- 在动态边界框内进行稀疏光流验证以强化静态点过滤。
- 利用多分辨率哈希编码(类似 NeRF)的体渲染与跳跃体素背景填充实现高效建图。
- 基于关键帧的回环检测与全局 BA,以降低动态场景中的漂移。
- 跟踪使用光流信息约束和带不确定度的深度监督;BA 联合优化相机位姿和地图点。
实验结果
研究问题
- RQ1语义先验与光流一致性是否能够在动态环境中实现对静态/动态的鲁棒分割,以支持实时密集 SLAM?
- RQ2结合语义编码与多分辨率哈希表示,是否在单目、立体和 RGB-D 输入的动态场景中提升重建质量与跟踪稳定性?
- RQ3与以往的神经隐式 SLAM 方法相比,DDN-SLAM 在动态场景中的回环与全局 BA 的表现如何?
- RQ4在标准数据集(如 TUM RGB-D、Bonn、OpenLORIS-Scene、Replica、ScanNet、EuRoC)上,DDN-SLAM 的运行时与内存权衡如何?
主要发现
| Method | 完成率 | walking/xyz | walking/half | walking/static | walking/rpy | sitting-xyz | sitting-half | AVG |
|---|---|---|---|---|---|---|---|---|
| LC-CRF SLAM | 100% | 0.027 | 0.024 | 0.079 | 0.186 | 0.027 | 0.098 | 0.066 |
| Crowd-SLAM | 100% | 0.037 | 0.014 | 0.026 | 0.029 | 0.019 | 0.035 | 0.038 |
| ORB-SLAM2 | 93% | 0.065 | 0.230 | 0.320 | 0.039 | 0.496 | 0.989 | 0.373 |
| NICE-SLAM | 79% | 2.442 | 2.018 | 0.177 | 0.832 | 1.934 | 3.582 | 1.470 |
| ESLAM | 61% | 0.203 | 0.235 | 0.190 | 0.129 | 0.416 | 1.142 | 1.325 |
| Co-SLAM | 44% | 0.211 | 0.480 | 0.076 | 0.200 | 0. - | 0. - | 7.052 |
| DDN-SLAM(RGB) | 100% | 0.018 | 0.041 | 0.020 | 0.032 | 0.018 | 0.023 | 0.029 |
| DDN-SLAM | 100% | 0.014 | 0.023 | 0.010 | 0.039 | 0.010 | 0.017 | 0.020 |
- DDN-SLAM 在单目、立体和 RGB-D 输入下实现了 20–30 Hz 的实时跟踪与密集建图。
- 系统通过静态掩模与光流验证有效去除动态干扰,在具有挑战性的动态场景中实现了具有竞争力的跟踪与重建。
- 在 TUM RGB-D 动态序列中,DDN-SLAM 展现出有竞争力的 ATE RMSE,动态序列表格中的平均值约为 0.020 m。
- 在 Bonn 动态序列中,DDN-SLAM 实现了 100% 的跟踪完成率,RMSE 低(表中平均约 0.067 m)。
- 在 OpenLORIS-Scene 配置中,DDN-SLAM 显示出强劲的跟踪完成率(通常为 100%)和具有竞争力的 RMSE/PSNR 指标,在动态条件下优于若干神经隐式基线。
- 在静态场景中,DDN-SLAM 在建图效率方面仍与传统与神经隐式基线具有竞争力,报告的建图时间与内存占用适合轻量级平台。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。