[论文解读] UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning
UnDeepVO 是一种单目视觉里程计系统,采用无监督深度学习方法估计 6-DoF 相机位姿和稠密深度图,并实现绝对尺度恢复。该方法在未标注的立体图像对上进行训练,利用空间和时间几何约束,在 KITTI 数据集上实现了最先进的单目视觉里程计性能,无需真实位姿标签或后续的尺度校准。
We propose a novel monocular visual odometry (VO) system called UnDeepVO in this paper. UnDeepVO is able to estimate the 6-DoF pose of a monocular camera and the depth of its view by using deep neural networks. There are two salient features of the proposed UnDeepVO: one is the unsupervised deep learning scheme, and the other is the absolute scale recovery. Specifically, we train UnDeepVO by using stereo image pairs to recover the scale but test it by using consecutive monocular images. Thus, UnDeepVO is a monocular system. The loss function defined for training the networks is based on spatial and temporal dense information. A system overview is shown in Fig. 1. The experiments on KITTI dataset show our UnDeepVO achieves good performance in terms of pose accuracy.
研究动机与目标
- 开发一种单目视觉里程计系统,无需依赖真实位姿或深度标签即可实现绝对尺度恢复。
- 利用无监督学习方法,基于立体图像对训练深度神经网络,同时实现位姿和深度估计。
- 在推理阶段,从单目图像序列中实现精确的 6-DoF 位姿和稠密深度预测。
- 通过在大规模未标注数据集上进行无监督预训练,提升对运动模糊和光照变化等挑战性条件的鲁棒性。
- 通过在无监督训练阶段嵌入尺度恢复机制,消除对后续尺度处理的依赖。
提出的方法
- 系统采用基于 VGG 的 CNN 架构进行位姿估计,通过为平移和旋转分别设置全连接层,实现旋转和平移损失的加权归一化。
- 采用类似 U-Net 的编码器-解码器网络进行深度估计,利用立体训练数据生成具有绝对尺度的稠密深度图。
- 损失函数结合空间光度一致性(左右图像映射)和时间光度一致性(帧间图像重建),以实现无监督训练。
- 在训练中使用立体图像对以恢复绝对尺度,而模型在测试时使用单目序列,从而实现在校准尺度下的单目推理。
- 通过光度重建损失与深度平滑正则化相结合的方式,端到端训练网络,以提升泛化能力。
- 尺度对齐通过立体几何在训练过程中隐式学习,使模型能够预测具有尺度感知能力的输出,而无需显式监督。
实验结果
研究问题
- RQ1单目视觉里程计系统是否能通过在立体图像对上进行无监督训练实现绝对尺度恢复?
- RQ2深度神经网络在仅使用未标注立体数据的情况下,能否实现 6-DoF 位姿和稠密深度估计?
- RQ3在缺乏真实标签的情况下,空间与时间几何约束的结合在多大程度上提升了单目视觉里程计的性能?
- RQ4与监督方法及其他无监督基线相比,所提出的无监督方法在 KITTI 数据集上的位姿和深度估计精度如何?
- RQ5该系统是否能在无需尺度校准或回环检测的情况下,泛化到真实世界的单目序列?
主要发现
- 在 KITTI 数据集上,UnDeepVO 在所有单目视觉里程计方法中表现最佳,100 米内平均平移 RMSE 漂移为 0.76%,旋转 RMSE 漂移为 0.32°/100m。
- 系统无需后处理即可生成带尺度的 6-DoF 位姿和稠密深度图,优于缺乏尺度恢复能力的无监督方法。
- 在 KITTI 深度估计基准测试中,UnDeepVO 的绝对相对误差(Abs Rel)为 0.183,优于 SfMLearner(0.208),与 Eigen 等人的监督方法(0.214)相当。
- 在 KITTI 数据集序列 00–10 上,UnDeepVO 估计的轨迹在所有评估方法中与真实轨迹的视觉质量最接近。
- 对于无真实标签的序列 11–21,UnDeepVO 的轨迹性能与基于立体的 VISO2-S 系统相当,表明其在未见数据上具有强大的泛化能力。
- 尽管仅使用 KITTI 数据集的子集进行训练,UnDeepVO 仍取得了具有竞争力的深度估计结果,表明通过更大规模的无监督预训练可进一步提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。