QUICK REVIEW

[论文解读] Learning Depth from Monocular Videos using Direct Methods

Chaoyang Wang, José M. Buenaposada|arXiv (Cornell University)|Dec 1, 2017

Advanced Vision and Imaging参考文献 2被引用 35

一句话总结

该论文提出了一种新颖的单目视频无监督深度估计方法，通过用可微分的、无参数的直接视觉里程计（DDVO）模块替代先前工作的姿态卷积神经网络（CNN），并引入一种新型深度归一化策略。该方法在KITTI数据集上实现了最先进性能，优于以往的单目方法，并通过更好地处理尺度模糊性问题，实现了端到端反向传播，其精度已接近基于立体视觉的方法。

ABSTRACT

The ability to predict depth from a single image - using recent advances in CNNs - is of increasing interest to the vision community. Unsupervised strategies to learning are particularly appealing as they can utilize much larger and varied monocular video datasets during learning without the need for ground truth depth or stereo. In previous works, separate pose and depth CNN predictors had to be determined such that their joint outputs minimized the photometric error. Inspired by recent advances in direct visual odometry (DVO), we argue that the depth CNN predictor can be learned without a pose CNN predictor. Further, we demonstrate empirically that incorporation of a differentiable implementation of DVO, along with a novel depth normalization strategy - substantially improves performance over state of the art that use monocular videos for training.

研究动机与目标

解决基于立体视觉与单目无监督深度估计方法之间的性能差距。
克服现有单目深度学习框架中的尺度模糊性问题，该问题源于对尺度敏感的深度正则化。
通过将可微分的、确定性的DVO模块整合到训练流程中，消除对独立姿态CNN的需求。
通过采用混合训练策略，利用预训练的姿态-卷积神经网络初始化DDVO模块，从而提升训练稳定性和准确性。

提出的方法

将先前无监督方法中的姿态CNN替换为直接视觉里程计（DDVO）的可微分实现，从而实现通过姿态估计的反向传播。
提出一种新型深度归一化策略，以减轻尺度敏感性并改善训练收敛性。
将训练目标表述为最小化通过DDVO模块计算相机姿态后，扭曲图像与目标帧之间的光度重建误差。
采用混合训练流程：在训练初期使用预训练的姿态-CNN预测结果初始化DDVO模块，以改善初始化并避免陷入不良局部极小值。
通过使整个DVO流程可微分，确保端到端可微性，从而允许梯度从姿态层反向传播至深度预测层。
利用来自DVO的几何约束，其本身源自整体训练目标中使用的相同图像重建损失。

实验结果

研究问题

RQ1为何现有单目无监督深度估计方法无法匹配基于立体视觉的性能，尤其是由于尺度模糊性问题？
RQ2可微分的、无参数的DVO模块是否能够替代可学习的姿态CNN，同时提升深度估计性能？
RQ3深度归一化策略如何影响单目视频设置中无监督深度训练的稳定性和准确性？
RQ4使用预训练的姿态-CNN初始化DVO模块，是否能带来比单独训练DVO或姿态-CNN更好的收敛性和性能？

主要发现

所提方法在KITTI深度估计基准上实现了最先进性能，优于Zhou等人[31]的方法，并已接近基于立体视觉方法的性能。
可微分DVO（DDVO）模块在训练损失曲线上的表现显示，其收敛速度更快，且达到的局部极小值更优，相较于非可微分DVO。
使用预训练的姿态-CNN初始化DDVO模块，其性能显著优于单独训练DDVO或姿态-CNN。
混合训练策略（姿态-CNN + DDVO）在KITTI序列09上实现了0.045±0.108的绝对轨迹误差（ATE），在序列10上实现了0.033±0.074，优于Zhou等人[31]的方法，并与使用完整视频输入的ORB-SLAM性能相当。
定性结果表明，所提方法在恢复树干、广告牌等更精细几何细节方面，比Zhou等人[31]的方法更准确。
深度归一化策略有效降低了尺度敏感性，而这是以往单目方法出现发散的关键原因。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。