QUICK REVIEW

[论文解读] High Quality Monocular Depth Estimation via Transfer Learning

Ibraheem Alhashim, Peter Wonka|arXiv (Cornell University)|Dec 31, 2018

Advanced Vision and Imaging参考文献 37被引用 190

一句话总结

作者提出一个简单的编码器–解码器网络，使用预训练的 DenseNet-169 编码器和一个轻量级解码器来生成高分辨率的单目深度图，保真度更高，使用多项损失和有针对的数据增强进行训练。

ABSTRACT

Accurate depth estimation from images is a fundamental task in many applications including scene understanding and reconstruction. Existing solutions for depth estimation often produce blurry approximations of low resolution. This paper presents a convolutional neural network for computing a high-resolution depth map given a single RGB image with the help of transfer learning. Following a standard encoder-decoder architecture, we leverage features extracted using high performing pre-trained networks when initializing our encoder along with augmentation and training strategies that lead to more accurate results. We show how, even for a very simple decoder, our method is able to achieve detailed high-resolution depth maps. Our network, with fewer parameters and training iterations, outperforms state-of-the-art on two datasets and also produces qualitatively better results that capture object boundaries more faithfully. Code and corresponding pre-trained weights are made publicly available.

研究动机与目标

证明来自图像分类编码器的迁移学习能够产生更高质量的单目深度图。
表明一个简单的解码器在参数和迭代次数更少的情况下也能达到最先进的性能。
提出一种损失函数，在保持深度精度的同时确保边界细节。
定义一种增强策略，以提高学习效率和泛化能力。
提供一个新的室内合成深度数据集以评估泛化能力（Unreal-1k）。

提出的方法

编码器：预训练的 DenseNet-169 (ImageNet)，截断用于深度估计。
解码器：轻量级上采样块，带跳跃连接，不使用 Batch Normalization。
损失：L = lambda * L_depth + L_grad + L_SSIM，lambda = 0.1，L_depth 在深度空间为 L1；深度值通过倒数缩放进行变换以稳定训练。
数据增强：水平翻转，概率为 0.5；颜色通道置换，概率为 0.25。
训练策略：端到端训练，采用 ADAM，NYU Depth v2 上训练 1M 次迭代，KITTI 上训练 300K 次迭代；评估使用均方误差/相对误差指标。
评估：在 NYU Depth v2、KITTI 和 Unreal-1k 数据集上的定性和定量评估。

实验结果

研究问题

RQ1来自图像分类编码器的迁移学习是否能提升单目深度估计的质量？
RQ2当与强大的编码器搭配时，简单解码器是否能超越更复杂的架构？
RQ3损失设计和增强策略如何影响深度准确性和边缘保留？
RQ4提出的模型对室内合成数据集（Unreal-1k）及跨域数据的泛化能力如何？

主要发现

在 NYU Depth v2 的大多数指标上达到最先进的性能，参数量约为 42.6M，训练迭代次数为 1M，比一些现有方法更少。
生成的深度图具有更清晰的对象边界和更少的伪影，比以往方法更优秀。
在 Unreal-1k 室内合成数据集的定量（误差更低）和定性指标上均超越。
在 KITTI 数据集的标准指标中总体排名第二，受限于非常稀疏的地面真值数据，但定性深度图仍然具有高质量。
消融研究显示颜色通道增强显著提升泛化能力，而在参数成本较高的前提下，更深的编码器带来收益递减。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。