QUICK REVIEW

[论文解读] Estimating Depth from Monocular Images as Classification Using Deep Fully Convolutional Residual Networks

Yuanzhouhan Cao, Zifeng Wu|arXiv (Cornell University)|May 8, 2016

Advanced Vision and Imaging参考文献 25被引用 44

一句话总结

本文提出了一种新颖的单目深度估计方法，通过将连续的深度值离散化为离散的桶（bins），将深度预测重新表述为像素级分类任务。采用基于残差网络的深度全卷积网络，并结合信息增益损失和全连接条件随机场（CRFs）进行后处理，该方法在 NYUD2、KITTI 和 SUN RGB-D 数据集上实现了最先进性能，通过利用置信度感知预测和改进的空间一致性，超越了基于回归的方法。

ABSTRACT

Depth estimation from single monocular images is a key component of scene understanding and has benefited largely from deep convolutional neural networks (CNN) recently. In this article, we take advantage of the recent deep residual networks and propose a simple yet effective approach to this problem. We formulate depth estimation as a pixel-wise classification task. Specifically, we first discretize the continuous depth values into multiple bins and label the bins according to their depth range. Then we train fully convolutional deep residual networks to predict the depth label of each pixel. Performing discrete depth label classification instead of continuous depth value regression allows us to predict a confidence in the form of probability distribution. We further apply fully-connected conditional random fields (CRF) as a post processing step to enforce local smoothness interactions, which improves the results. We evaluate our approach on both indoor and outdoor datasets and achieve state-of-the-art performance.

研究动机与目标

解决基于回归的深度估计方法的局限性，后者在精确深度值预测方面表现不佳，且缺乏内在的置信度估计能力。
通过将任务重新表述为深度范围的像素级分类，提升深度估计的鲁棒性和准确性。
利用分类输出的概率分布，通过信息增益损失实现更优的训练，并通过全连接条件随机场（CRFs）实现后处理，从而提升性能。
在包括 NYUD2、KITTI 和 SUN RGB-D 在内的标准基准上展示最先进性能，涵盖跨数据集泛化能力。

提出的方法

在室内数据集中将连续深度值离散化为100个对数空间桶，在KITTI数据集中为50个桶，以支持基于分类的预测。
训练一个深度全卷积残差网络（基于ResNet）以预测每个像素在深度桶上的概率分布。
引入信息增益损失，对接近真实值的预测赋予更高权重，从而提升训练效率和准确性。
应用全连接条件随机场（CRFs）作为后处理，利用空间上下文和置信度分数对预测结果进行优化。
利用分类输出的概率分布自然编码预测置信度，避免使用蒙特卡洛Dropout等复杂方法。
采用对数空间离散化，更好地处理真实场景中深度值的长尾分布特性。

实验结果

研究问题

RQ1将单目深度估计任务重新表述为分类任务而非回归任务，是否能提升性能和置信度估计？
RQ2使用对邻近深度预测赋予更高权重的信息增益损失，如何影响模型训练和准确性？
RQ3全连接条件随机场在利用空间上下文和置信度分数方面，能在多大程度上提升深度估计性能？
RQ4所提出的基于分类的方法在不同数据集（如 NYUD2 和 SUN RGB-D）之间是否具有良好的泛化能力？
RQ5在定量指标和视觉质量方面，该方法与最先进基于回归的模型相比表现如何？

主要发现

在 NYUD2 数据集上，该方法实现了均绝对误差（abs rel）0.127、log10 0.127 和 RMS 0.839，优于先前最先进方法。
在 KITTI 数据集上，该方法实现了 delta<1.25 的准确率为 88.2%，log10 为 0.127，显著优于先前方法。
信息增益损失与全连接 CRFs 的结合带来了显著的性能提升，尤其在低置信度预测区域表现突出。
跨数据集评估显示，该模型泛化能力良好，当在 NYUD2 上训练并在 SUN RGB-D 上测试时，实现了 56.3% 的准确率和 0.256 的 rel 错误率。
定性结果表明，与基线方法相比，该方法生成的深度边界更清晰，预测更一致，尤其在经过 CRF 后处理后表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。