Skip to main content
QUICK REVIEW

[论文解读] Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction

Huangying Zhan, Ravi Garg|arXiv (Cornell University)|Mar 11, 2018
Advanced Vision and Imaging参考文献 33被引用 85
一句话总结

本文提出一个无监督框架,从立体视频序列中联合学习单视图深度和单目视觉里程计,利用时空光度损失和深度特征重建损失来实现度量尺度的深度和有竞争力的VO。

ABSTRACT

Despite learning based methods showing promising results in single view depth estimation and visual odometry, most existing approaches treat the tasks in a supervised manner. Recent approaches to single view depth estimation explore the possibility of learning without full supervision via minimizing photometric error. In this paper, we explore the use of stereo sequences for learning depth and visual odometry. The use of stereo sequences enables the use of both spatial (between left-right pairs) and temporal (forward backward) photometric warp error, and constrains the scene depth and camera motion to be in a common, real-world scale. At test time our framework is able to estimate single view depth and two-view odometry from a monocular sequence. We also show how we can improve on a standard photometric warp loss by considering a warp of deep features. We show through extensive experiments that: (i) jointly training for single view depth and visual odometry improves depth prediction because of the additional constraint imposed on depths and achieves competitive results for visual odometry; (ii) deep feature-based warping loss improves upon simple photometric warp loss for both single view depth estimation and visual odometry. Our method outperforms existing learning based methods on the KITTI driving dataset in both tasks. The source code is available at https://github.com/Huangying-Zhan/Depth-VO-Feat

研究动机与目标

  • 通过利用立体训练数据,激发并解决单目深度与姿态估计中的尺度不确定性。
  • 联合学习深度估计器和视觉里程计网络,以强制跨任务的一致性。
  • 通过引入深度特征重建损失,超越光度损失提供更丰富的监督。
  • 证明立体和时间约束在KITTI上提升深度精度和VO性能。

提出的方法

  • 从立体视频序列联合训练深度网络(CNN_D)和视觉里程计网络(CNN_VO)。
  • 使用可微几何通过本征几何和双线性采样实现目标视图合成,从而实现图像重建损失。
  • 施加结合左右一致性与时间一致性的图像重建损失以提供监督。
  • 引入深度特征重建损失,提供超越原始像素强度的鲁棒、上下文感知监督。
  • 应用边缘感知的深度平滑损失来正则化深度预测。
  • 可选地在特征重建项中融合自ImageNet、NYUv2-descriptor或自嵌入深度特征的特征。

实验结果

研究问题

  • RQ1立体训练是否能消除单目深度与VO估计的逐帧尺度模糊,并在测试时提供度量尺度?
  • RQ2纳入时间信息和基于深度特征的重建是否在超越颜色光度损失的情况下提升深度和VO的精度?
  • RQ3在KITTI上联合训练深度与姿态网络对深度质量和逐帧里程计性能的影响是什么?

主要发现

方法Seq09 t_err(%)Seq09 r_err(°/100m)Seq10 t_err(%)Seq10 r_err(°/100m)
ORB-SLAM (LC)16.231.36//
ORB-SLAM15.300.263.680.48
Zhou et al. [44]17.846.7837.9117.78
Ours (Temporal)11.933.9112.453.46
Ours (Full-NYUv2)11.923.6012.623.43
  • 基于立体的联合训练框架在没有外部尺度监督的情况下实现了度量尺度的深度和有竞争力的单目VO结果。
  • 深度特征重建损失在深度和VO精度上优于纯光度(颜色)变形损失。
  • 在立体与时间约束下的联合深度与VO训练超过先前的单目VO方法,并在KITTI上与几何基线保持竞争力。
  • 在变形损失中加入学习到的特征(来自ImageNet或自监督深度特征)进一步提升性能。
  • 该方法在KITTI上成为无监督方法中单视图深度估计和逐帧VO的最新水平。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。