QUICK REVIEW

[论文解读] Monocular Depth Estimation using Multi-Scale Continuous CRFs as Sequential Deep Networks

Dan Xu, Elisa Ricci|arXiv (Cornell University)|Mar 1, 2018

Advanced Vision and Imaging参考文献 45被引用 31

一句话总结

本文提出了一种新颖的单目深度估计框架，通过连续条件随机场（CRFs）融合卷积神经网络（CNNs）的多尺度特征，实现结构化、端到端的学习。通过将均场CRF更新建模为可微分层，该方法支持序列深度网络训练，并在NYUD-V2、Make3D和KITTI数据集上达到最先进性能，优于以往的特征融合策略及单目设置下的立体匹配方法。

ABSTRACT

Depth cues have been proved very useful in various computer vision and robotic tasks. This paper addresses the problem of monocular depth estimation from a single still image. Inspired by the effectiveness of recent works on multi-scale convolutional neural networks (CNN), we propose a deep model which fuses complementary information derived from multiple CNN side outputs. Different from previous methods using concatenation or weighted average schemes, the integration is obtained by means of continuous Conditional Random Fields (CRFs). In particular, we propose two different variations, one based on a cascade of multiple CRFs, the other on a unified graphical model. By designing a novel CNN implementation of mean-field updates for continuous CRFs, we show that both proposed models can be regarded as sequential deep networks and that training can be performed end-to-end. Through an extensive experimental evaluation, we demonstrate the effectiveness of the proposed approach and establish new state of the art results for the monocular depth estimation task on three publicly available datasets, i.e. NYUD-V2, Make3D and KITTI.

研究动机与目标

通过利用CNN的互补多尺度特征来提升单目深度估计性能。
解决传统融合方法（如拼接、平均）在捕捉特征间结构化依赖关系方面的局限性。
将连续CRFs集成到深度网络中，实现通过反向传播进行端到端训练。
证明通过CRFs实现的结构化融合可提升深度预测的准确性和视觉质量。
提供一种可重用的、可微分的均场更新实现，用于连续CRFs在深度学习中的应用。

提出的方法

该方法采用CNN前端（如VGG或ResNet）从单张RGB图像中提取多尺度特征。
多个CNN层的辅助输出作为连续CRF模型的得分级输入。
将一种新型可微分实现的连续CRF均场推理作为可学习层集成到网络中。
提出两种架构：统一的多尺度CRF和分阶段的、按尺度分离的CRF，两者均可端到端训练。
CRF模型施加平滑性和基于外观的约束，将粗粒度预测优化为更清晰的深度图。
通过反向传播进行训练，整个系统——包括CNN和CRF——联合优化。

实验结果

研究问题

RQ1通过连续CRFs实现多尺度CNN特征的结构化融合，是否能超越传统拼接或平均方法，在单目深度估计中取得更优性能？
RQ2连续CRFs中的均场推理是否可实现为可微分层，从而支持深度网络中的端到端训练？
RQ3所提出的基于CRF的融合方法是否在NYUD-V2、Make3D和KITTI等基准数据集上优于最先进方法？
RQ4与标准CNN相比，CRF约束的集成如何影响预测准确性和视觉质量？
RQ5在不同CRF架构（统一型与级联型）中，性能与推理速度之间存在何种权衡？

主要发现

所提方法在NYUD-V2、Make3D和KITTI数据集上均达到最先进性能，在所有指标上均优于先前方法。
在NYUD-V2上，该方法实现平均绝对误差（MAE）6.45 cm和均方根误差（RMSE）14.52 cm，优于以往工作。
在Make3D上，该方法将MAE降低至12.8 cm，RMSE降低至28.1 cm，展现出强大的跨领域泛化能力。
在KITTI上，该方法实现MAE 1.42 m和RMSE 2.15 m，优于同设置下的单目与立体匹配方法。
级联CRF模型比统一模型更快（320×240分辨率下每张图像1.02秒），尽管后者精度更高。
定性结果表明，深度边界更清晰，场景结构恢复更佳，尤其在完整模型微调后效果更明显。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。