Skip to main content
QUICK REVIEW

[论文解读] Structured Attention Guided Convolutional Neural Fields for Monocular Depth Estimation

Dan Xu, Wei Wang|arXiv (Cornell University)|Mar 29, 2018
Advanced Vision and Imaging参考文献 33被引用 40
一句话总结

论文提出了一种结构化注意力引导的条件神经场(CRF),它将多尺度CNN特征融合用于单目深度估计,能够端到端训练,并在NYU Depth V2和KITTI上实现具有竞争力或最先进的结果。

ABSTRACT

Recent works have shown the benefit of integrating Conditional Random Fields (CRFs) models into deep architectures for improving pixel-level prediction tasks. Following this line of research, in this paper we introduce a novel approach for monocular depth estimation. Similarly to previous works, our method employs a continuous CRF to fuse multi-scale information derived from different layers of a front-end Convolutional Neural Network (CNN). Differently from past works, our approach benefits from a structured attention model which automatically regulates the amount of information transferred between corresponding features at different scales. Importantly, the proposed attention model is seamlessly integrated into the CRF, allowing end-to-end training of the entire architecture. Our extensive experimental evaluation demonstrates the effectiveness of the proposed method which is competitive with previous methods on the KITTI benchmark and outperforms the state of the art on the NYU Depth V2 dataset.

研究动机与目标

  • 通过在CRF中融合多尺度CNN特征来激发单图像深度估计。
  • 引入一种结构化注意力机制,调节CRF中跨尺度的信息流。
  • 通过将CRF与前端CNN和解码器集成,实现端到端可训练性。
  • 在NYU Depth V2和KITTI上展示相对于CRF基础方法和多尺度融合基线的精度提升。

提出的方法

  • 提出一个多尺度CRF,接收前端CNN的S尺度特征图X = {X_s},并学习潜在映射Y = {Y_s},伴随注意力A = {A_s}。
  • 在CRF能量中定义一元项将Y_s与X_s相连,介于中间尺度与最终尺度之间的对偶项受注意力调制,以及鼓励相邻像素之间平滑性的结构化注意力项。
  • 推导Y和A的均值场更新,实现为神经网络层以实现端到端训练。
  • 以ResNet-50作为编码器,融合res3c、res4f、res5c特征图,并上采样到1/4分辨率进行CRF融合,再上采样至原始分辨率进行深度预测。
  • 用深度平方损失对深度预测进行训练,并使用SGD优化整个网络端到端训练。

实验结果

研究问题

  • RQ1将结构化注意力机制整合到CRF中,是否能提升单目深度估计的多尺度融合?
  • RQ2在CRF内对特征层进行运算是否比仅在最终预测上进行细化得到更好的深度图?
  • RQ3与现有的基于CRF的和非CRF的单目深度估计相比,该方法在NYU Depth V2和KITTI上的表现如何?

主要发现

  • 所提出的方法在NYU Depth V2上优于以往的基于CRF的方法,并且在KITTI上处于前列。
  • CRF中的结构化注意力相对于非注意力CRF和简单的特征融合,显著提高了深度预测精度。
  • CNN与结构化CRF的端到端训练在仅使用原始训练数据的情况下即可获得具有竞争力的结果。
  • 与基线相比,该方法在精度-时间权衡方面更具优势,推理速度比某些早期基于CRF的模型更快。
  • 消融实验表明通过结构化注意力CRF将多尺度特征综合在一起可获得最佳性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。