Skip to main content
QUICK REVIEW

[论文解读] Unsupervised Scale-consistent Depth and Ego-motion Learning from Monocular Video

Jia-Wang Bian, Zhichao Li|arXiv (Cornell University)|Aug 28, 2019
Advanced Vision and Imaging被引用 295
一句话总结

论文提出几何一致性损失和自我发现的掩码,以从单目视频训练深度和自我运动网络,在KITTI上实现单目深度的SOTA,并在全球尺度上实现尺度一致的视觉里程计,无需立体监督。

ABSTRACT

Recent work has shown that CNN-based depth and ego-motion estimators can be learned using unlabelled monocular videos. However, the performance is limited by unidentified moving objects that violate the underlying static scene assumption in geometric image reconstruction. More significantly, due to lack of proper constraints, networks output scale-inconsistent results over different samples, i.e., the ego-motion network cannot provide full camera trajectories over a long video sequence because of the per-frame scale ambiguity. This paper tackles these challenges by proposing a geometry consistency loss for scale-consistent predictions and an induced self-discovered mask for handling moving objects and occlusions. Since we do not leverage multi-task learning like recent works, our framework is much simpler and more efficient. Comprehensive evaluation results demonstrate that our depth estimator achieves the state-of-the-art performance on the KITTI dataset. Moreover, we show that our ego-motion network is able to predict a globally scale-consistent camera trajectory for long video sequences, and the resulting visual odometry accuracy is competitive with the recent model that is trained using stereo videos. To the best of our knowledge, this is the first work to show that deep networks trained using unlabelled monocular videos can predict globally scale-consistent camera trajectories over a long video sequence.

研究动机与目标

  • 在没有真值深度或位姿的情况下,动机化单目视频的无监督深度与 ego-motion 学习。
  • 解决样本间的尺度不一致以及静态场景假设下的移动对象问题。
  • 引入基于几何的尺度一致性约束和自我发现的掩码,以提高鲁棒性与效率。

提出的方法

  • 从连续帧预测深度图和相对相机位姿,使用卷积神经网络(CNN)。
  • 使用预测的深度和位姿通过可微插值对一个帧进行扭曲和重建。
  • 引入几何一致性损失 L_GC,最小化连续帧之间的深度不一致性,以强制尺度一致性。
  • 从深度不一致性 D_diff 推导自我发现的掩码 M,用于在光度损失中对来自动态区域和遮挡的像素进行下采样权重。
  • 以光度损失、结构相似性(SSIM)、边缘感知平滑项和几何一致性损失的加权和进行训练。
  • 在 KITTI 上进行单尺度监督评估,并展示在不进行多任务监督的情况下,深度达到 SOTA 且长序列的 VO 具有竞争力。

实验结果

研究问题

  • RQ1在仅使用单目视频且没有地面真实深度的情况下,深度和 ego-motion 网络是否能够在长序列上实现全球尺度一致的预测?
  • RQ2如何利用几何约束在不需要额外监督或多任务的情况下强制尺度一致性?
  • RQ3是否可以通过重建不一致性推导出的自我发现掩码有效处理动态图对象和遮挡,而无需额外网络?
  • RQ4单尺度监督在无监督单目深度学习中的效果是否优于多尺度监督?
  • RQ5在 KITTI 上,单目训练的 VO 相对于立体监督基线的性能如何?

主要发现

  • 深度估计器在 KITTI 上达到对单目视频训练方法的最先进表现。
  • Ego-motion 预测在长序列上实现全球尺度一致的相机轨迹,竞争于立体训练模型。
  • 几何一致性损失降低尺度不一致性,并在序列中传播帧到帧的一致性。
  • 从深度不一致性推导出的自我发现掩码在没有额外网络的情况下有效地对动态图和遮挡区域进行下采样权重。
  • 在他们的设置中,单尺度监督优于多尺度监督,提升了鲁棒性与效率。
  • 该方法在深度精度和视觉里程计方面表现强劲,并显著提升训练效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。