QUICK REVIEW

[论文解读] Unsupervised Learning of Depth and Ego-Motion from Video

Tinghui Zhou, Matthew Brown|arXiv (Cornell University)|Apr 25, 2017

Advanced Vision and Imaging参考文献 47被引用 222

一句话总结

一套端到端的无监督框架，通过在训练可微分视图合成损失下从未标记视频中学习单目深度和相机运动，联合预测每像素深度和6-DoF位姿，并使用解释性掩模来处理非理想因素。

ABSTRACT

We present an unsupervised learning framework for the task of monocular depth and camera motion estimation from unstructured video sequences. We achieve this by simultaneously training depth and camera pose estimation networks using the task of view synthesis as the supervisory signal. The networks are thus coupled via the view synthesis objective during training, but can be applied independently at test time. Empirical evaluation on the KITTI dataset demonstrates the effectiveness of our approach: 1) monocular depth performing comparably with supervised methods that use either ground-truth pose or depth for training, and 2) pose estimation performing favorably with established SLAM systems under comparable input settings.

研究动机与目标

在没有真实深度或位姿的无标签视频序列上推动学习场景几何和相机运动。
开发一个端到端的卷积神经网络框架，将像素映射到深度和6-DoF位姿。
利用可微分的基于图像的渲染，通过视图合成来监督深度和位姿。
引入一个解释性掩模，用于处理遮挡、非刚性运动以及其他未建模因素。
在KITTI上展示在深度估计和自运动相对有监督基线的效果对比。

提出的方法

使用单视图深度网络从目标视图预测逐像素深度图。
使用一个姿态网络，输入目标视图和附近的源视图，预测相对于每个源视图的相对相机位姿。
通过使用预测的深度和位姿将源视图扭曲到目标帧来计算可微分的视图合成损失。
结合带双线性采样的可微分基于图像的渲染器来重建目标视图，从而使位姿和深度误差能够反向传播。
引入一个解释性掩模，对因为场景动态、遮挡或非兰伯特表面等导致视图合成不可靠的区域进行权重下调，并加入正则化项以避免简单掩模。
采用多尺度训练并结合深度平滑性先验，以解决梯度局部性并促进合理的深度图。

实验结果

研究问题

RQ1单目视频是否能够提供足够的监督来在没有地面真值标签的情况下联合学习深度和自运动？
RQ2如何将视图合成用作监督信号以端到端训练深度和位姿网络？
RQ3在无监督训练过程中，为处理遮挡、动态和非理想性，需要哪些机制（如解释性掩模）？
RQ4在像KITTI等标准基准上，无监督方法与有监督的深度/位姿方法相比如何？

主要发现

该框架学习出与在 KITTI 上使用真实位姿或深度进行训练的有监督方法具有竞争力的单视图深度。
从单目序列估计的位姿在可比输入条件下相较于成熟的SLAM系统表现良好。
该方法完全无监督运行，只需要单目视频序列用于训练。
解释性掩模有助于缓解场景动态、遮挡和非兰伯特表面引起的问题，增强视图合成监督的鲁棒性（尽管消融研究在 KITTI 上显示增益适中）。
测试时部署允许独立使用深度和位姿网络，尽管它们是联合训练的。
结果包括在 KITTI 的定性和定量比较；在受限输入下，该方法在深度接近有监督基线，在自运动方面接近SLAM式性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。