QUICK REVIEW

[论文解读] Unsupervised Depth Learning in Challenging Indoor Video: Weak Rectification to Rescue.

Jia-Wang Bian, Huangying Zhan|arXiv (Cornell University)|Jun 4, 2020

Advanced Vision and Imaging参考文献 54被引用 31

一句话总结

本文通过识别主导性旋转的退化自运动（degenerate ego-motion）作为手持室内视频中无监督深度估计失败的关键障碍，解决了该问题。提出弱图像校正方法以抑制旋转噪声并保留平移监督信号，使现有无监督模型在 NYUv2 数据集上实现最先进性能（AbsRel 为 0.147）。

ABSTRACT

Single-view depth estimation using CNNs trained from unlabelled videos has shown significant promise. However, the excellent results have mostly been obtained in street-scene driving scenarios, and such methods often fail in other settings, particularly indoor videos taken by handheld devices, in which case the ego-motion is often degenerate, i.e., the rotation dominates the translation. In this work, we establish that the degenerate camera motions exhibited in handheld settings are a critical obstacle for unsupervised depth learning. A main contribution of our work is fundamental analysis which shows that the rotation behaves as noise during training, as opposed to the translation (baseline) which provides supervision signals. To capitalise on our findings, we propose a novel data pre-processing method for effective training, i.e., we search for image pairs with modest translation and remove their rotation via the proposed weak image rectification. With our pre-processing, existing unsupervised models can be trained well in challenging scenarios (e.g., NYUv2 dataset), and the results outperform the unsupervised SOTA by a large margin (0.147 vs. 0.189 in the AbsRel error).

研究动机与目标

探究为何无监督深度估计方法在手持室内视频场景中失败，尽管其在驾驶场景中表现良好。
识别退化自运动（即旋转主导平移）作为无监督深度学习失败的主要原因。
开发一种预处理方法，通过从图像对中去除旋转分量来增强训练信号。
使现有无监督深度模型在 NYUv2 等具有挑战性的室内基准上实现最先进性能。

提出的方法

作者进行基础分析表明，旋转在训练期间充当噪声，而平移提供有用的监督信号。
提出一种弱图像校正方法，通过识别旋转最小的图像对，并利用基于单应矩阵的变换去除旋转分量。
该方法选择具有适度平移的图像对，并应用基于估计运动的校正过程，对齐图像，有效抑制旋转失真。
校正后的图像对用于预处理训练数据，提升无监督深度学习中监督信号的质量。
该方法作为训练前的预处理步骤应用，无需修改网络架构。
该方法依赖几何约束和运动估计来识别并校正旋转分量，无需真实深度监督。

实验结果

研究问题

RQ1为何无监督深度估计模型在手持室内视频场景中失败，尽管其在驾驶场景中表现强劲？
RQ2旋转自运动在多大程度上会降低无监督深度学习的性能？
RQ3一种去除图像对中旋转分量的预处理步骤能否改善无监督深度学习的训练信号？
RQ4当在经校正的数据上训练时，现有无监督深度模型能否在 NYUv2 等室内基准上实现最先进性能？
RQ5弱校正是否能有效保留平移监督信号的同时抑制旋转噪声？

主要发现

手持室内视频中的旋转在无监督深度训练期间充当噪声，降低模型性能。
平移提供可靠的监督信号，而旋转会干扰学习过程。
所提出的弱校正方法成功从图像对中去除旋转分量，提升训练信号质量。
在经校正的数据上训练时，现有无监督模型在 NYUv2 数据集上的 AbsRel 错误达到 0.147，显著优于此前最先进方法。
该方法无需架构修改即可实现最先进性能，证明了在具有挑战性的室内环境中预处理的有效性。
性能提升归因于校正后平移运动作为可靠监督信号的保留。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。