QUICK REVIEW

[论文解读] Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation

Dan Xu, Elisa Ricci|arXiv (Cornell University)|Apr 7, 2017

Advanced Vision and Imaging参考文献 31被引用 42

一句话总结

本文提出了一种新颖的多尺度连续CRF框架，通过基于CNN的均场推理实现端到端可训练的序列深度网络，融合来自多个CNN层的特征，用于单目深度估计。该方法在NYU Depth V2和Make3D数据集上实现了最先进性能，即使使用显著更少的训练数据，也优于先前的方法。

ABSTRACT

This paper addresses the problem of depth estimation from a single still image. Inspired by recent works on multi- scale convolutional neural networks (CNN), we propose a deep model which fuses complementary information derived from multiple CNN side outputs. Different from previous methods, the integration is obtained by means of continuous Conditional Random Fields (CRFs). In particular, we propose two different variations, one based on a cascade of multiple CRFs, the other on a unified graphical model. By designing a novel CNN implementation of mean-field updates for continuous CRFs, we show that both proposed models can be regarded as sequential deep networks and that training can be performed end-to-end. Through extensive experimental evaluation we demonstrate the effective- ness of the proposed approach and establish new state of the art results on publicly available datasets.

研究动机与目标

利用深度学习解决从单张RGB图像中准确进行单目深度估计的挑战。
通过利用结构化概率建模，克服传统多尺度融合方法（如拼接或平均）的局限性。
整合连续条件随机场（CRFs），以最优方式融合多尺度CNN特征，提升深度预测性能。
通过将均场CRF更新公式化为CNN中的可微分层，实现整个模型的端到端训练。
通过使用各种预训练的CNN主干网络，在多种数据集上展示泛化能力和性能提升。

提出的方法

提出两种变体：统一的多尺度CRF和分阶段的、针对各尺度的CRF级联结构，用于融合多个CNN侧输出的特征。
设计了一种新颖的基于CNN的连续CRF均场推理实现，支持可微分、端到端训练。
将CRF推理过程视为序列深度网络，支持通过整个架构进行反向传播。
使用连续CRF能量函数，建模深度预测之间的空间依赖关系，包含平滑项和数据保真项。
采用均场更新的可微分近似，使梯度能够在反向传播过程中通过CRF层。
将该框架应用于多种CNN架构（如ResNet-50），并在小规模数据集上进行微调。

实验结果

研究问题

RQ1连续CRF能否有效融合来自CNN侧输出的多尺度特征，从而提升单目深度估计性能？
RQ2连续CRF中的均场推理能否作为CNN中的可微分层实现，以支持端到端训练？
RQ3所提出的基于CRF的特征融合是否优于传统的多尺度融合策略（如特征拼接或多损失训练）？
RQ4与先前的最先进方法相比，该方法是否能在显著更少的训练数据下实现最先进性能？
RQ5所提出的框架在不同CNN主干网络和基准数据集上的泛化能力如何？

主要发现

所提出的多尺度CRF框架优于以往依赖拼接或多损失训练的多尺度融合方法。
在NYU Depth V2数据集上，仅使用10K预训练图像，该方法实现了相对误差（rel）为0.121，log10误差为0.052，优于先前最先进方法，且训练数据更少。
在Make3D数据集上，该方法实现了log10误差0.065和RMS误差4.38，使用10K预训练图像，优于Laina等人[18]使用Huber损失的方法。
级联结构和多尺度CRF变体均优于Liu等人[20]，后者也在深度网络中使用了CRFs，且推理速度更快（约1秒/图像）。
该方法在NYU Depth V2和Make3D数据集上均实现了最先进性能，在所有设置下，rel、log10、RMS和delta指标均有提升。
所提出的基于CNN的均场实现具有通用性，可适用于涉及连续变量的其他像素级回归任务。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。