QUICK REVIEW

[论文解读] Unsupervised Monocular Depth Learning in Dynamic Scenes

Hanhan Li, Ariel Gordon|arXiv (Cornell University)|Oct 30, 2020

Advanced Vision and Imaging参考文献 43被引用 57

一句话总结

这篇论文从单目视频在没有任何辅助信号的情况下学习深度、自运动，以及一个密集的三维对象平移场，使用新颖的运动正则化（L_g1 和 L_{1/2}）来处理动态场景，在 Cityscapes、KITTI、Waymo Open Dataset 以及 YouTube 视频上达到最先进或具竞争力的结果。

ABSTRACT

We present a method for jointly training the estimation of depth, ego-motion, and a dense 3D translation field of objects relative to the scene, with monocular photometric consistency being the sole source of supervision. We show that this apparently heavily underdetermined problem can be regularized by imposing the following prior knowledge about 3D translation fields: they are sparse, since most of the scene is static, and they tend to be constant for rigid moving objects. We show that this regularization alone is sufficient to train monocular depth prediction models that exceed the accuracy achieved in prior work for dynamic scenes, including methods that require semantic input. Code is at https://github.com/google-research/google-research/tree/master/depth_and_motion_learning .

研究动机与目标

在高度动态的场景中仅使用单目视频监督来激励并解决深度估计的问题。
联合学习深度、自运动，以及用于移动对象的密集三维平移场。
对残留对象运动进行正则化，以在无语义信息或立体视觉的情况下实现鲁棒的深度预测。

提出的方法

编码-解码深度网络预测每帧深度。
运动网络预测密集的三维对象平移场 T_obj(u,v) 和六维自运动向量 M_ego。
深度网络和运动网络利用这两帧：深度对每帧独立，运动使用两帧并将深度作为附加输入通道。
运动正则化 L_reg,mot 将分组平滑 L_g1 与 L_{1/2} 稀疏性结合，以对刚性对象强制实现分段常量运动。
边缘感知深度正则化与一致性损失：L_reg,dep、L_rgb（光度一致性）和 L_cyc（运动循环一致性）。
一个可微分的视图变换器使用 K、R 和 T 在帧之间进行扭曲以实现自监督。

实验结果

研究问题

RQ1单目视频是否可以在没有语义信息或立体线索的情况下监督学习深度、自运动和密集对象运动？
RQ2如何对残留运动场进行正则化，以在保持深度精度的同时处理具有移动对象的动态场景？
RQ3使用所提出的正则化在标准动态场景基准（Cityscapes、KITTI、Waymo）以及野外视频中的性能提升是多少？
RQ4将预测的深度作为运动网络的额外输入通道是否会改善运动估计？
RQ5在运动正则化中使用 L_{1/2} 相对于 L_{1} 稀疏性有何影响？

主要发现

在 Cityscapes 和 Waymo Open Dataset 上实现了无监督深度的最先进水平，在 KITTI 上也取得了具竞争力的结果，且未使用语义输入。
深度按帧学习，而运动从帧对学习，作为三维平移场加自运动。
两部分运动正则化（L_g1 和自归一化的 L_{1/2}）在移动对象内部强制稀疏性和分段常量运动，从而在动态场景中实现鲁棒深度。
推理在 V100 上约每帧 5.3 ms（480x192），实现约 190 FPS（未优化）。
消融实验表明，在运动网络中移除深度输入或使用 L_{1} 而非 L_{1/2} 会在 Cityscapes 上降低性能；添加预训练掩码则在不同设定下提供适度提升或无额外收益。
按数据集的结果：Cityscapes 消融显示 Abs Rel 0.119、Sq Rel 1.29、RMSE 6.98、RMSE log 0.190；KITTI（Eigen split）Abs Rel 0.130、Sq Rel 0.950、RMSE 5.138、RMSE log 0.209、δ<1.25 0.843、δ<1.25^2 0.948、δ<1.25^3 0.978；Waymo Open Dataset（无掩码）Abs Rel 0.162、Sq Rel 1.711、RMSE 7.833、RMSE log 0.223（有掩码：Abs Rel 0.157、Sq Rel 1.531、RMSE 7.090、RMSE log 0.205）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。