QUICK REVIEW

[论文解读] Learning Depth with Convolutional Spatial Propagation Network

Xinjing Cheng, Peng Wang|arXiv (Cornell University)|Oct 4, 2018

Advanced Vision and Imaging参考文献 96被引用 37

一句话总结

本文提出卷积空间传播网络（CSPN），一种快速且准确的线性传播模型，通过使用循环卷积操作学习空间亲和力以实现深度估计。将CSPN集成到最先进网络中后，该方法在NYUv2和KITTI数据集上的深度补全任务中实现了超过30%的误差降低，并在KITTI立体2012和2015基准上排名第一，相较于先前的空间传播网络，推理速度提升了2–5倍。

ABSTRACT

Depth prediction is one of the fundamental problems in computer vision. In this paper, we propose a simple yet effective convolutional spatial propagation network (CSPN) to learn the affinity matrix for various depth estimation tasks. Specifically, it is an efficient linear propagation model, in which the propagation is performed with a manner of recurrent convolutional operation, and the affinity among neighboring pixels is learned through a deep convolutional neural network (CNN). We can append this module to any output from a state-of-the-art (SOTA) depth estimation networks to improve their performances. In practice, we further extend CSPN in two aspects: 1) take sparse depth map as additional input, which is useful for the task of depth completion; 2) similar to commonly used 3D convolution operation in CNNs, we propose 3D CSPN to handle features with one additional dimension, which is effective in the task of stereo matching using 3D cost volume. For the tasks of sparse to dense, a.k.a depth completion. We experimented the proposed CPSN conjunct algorithms over the popular NYU v2 and KITTI datasets, where we show that our proposed algorithms not only produce high quality (e.g., 30% more reduction in depth error), but also run faster (e.g., 2 to 5x faster) than previous SOTA spatial propagation network. We also evaluated our stereo matching algorithm on the Scene Flow and KITTI Stereo datasets, and rank 1st on both the KITTI Stereo 2012 and 2015 benchmarks, which demonstrates the effectiveness of the proposed module. The code of CSPN proposed in this work will be released at https://github.com/XinJCheng/CSPN.

研究动机与目标

为解决SPN等串行、依赖顺序的深度细化方法的局限性，这些方法存在推理速度慢且与图像结构对齐性差的问题。
开发一种并行、高效且稳定的深度传播机制，在保留稀疏深度样本的同时增强局部与全局场景的一致性。
通过将CSPN与现有深度网络结合，特别是通过自适应融合多尺度特征和稀疏监督，提升深度补全与立体匹配性能。
将CSPN扩展至三维，以处理立体匹配中的视差和尺度空间，实现更好的上下文建模与细节恢复。
证明学习到的、数据驱动的亲和力学习在深度估计任务中优于手工设计或固定亲和力模型。

提出的方法

CSPN通过从深度CNN学习到的亲和力矩阵，对所有像素同时进行循环卷积更新，实现并行且稳定的深度传播。
通过显式保留传播过程中稀疏输入点的值，将稀疏深度监督整合到模型中，确保与可靠LiDAR类测量结果的一致性。
在立体匹配任务中，引入CSPN的3D变体（3DCSPN），利用3D卷积在空间、视差和尺度维度上实现传播。
增强的空间金字塔池化模块CSPF结合2D CSPN、空洞卷积和特征融合，以提升上下文建模与特征表示能力。
该框架具有模块化设计，可与任意主干网络（如PSMNet或Ma等人[10]提出的网络）堆叠，支持端到端训练。
在初始网络中引入镜像连接模块，以提升深度补全任务中对结构细节的特征学习能力。

实验结果

研究问题

RQ1所提出的、学习到的并行空间传播机制是否能在深度估计的速度与准确性上超越SPN等串行、扫描线式方法？
RQ2如何在传播过程中有效保留稀疏深度样本，以维持传感器可靠性，同时提升稠密预测性能？
RQ33D CSPN在同时建模空间、视差和尺度空间上下文方面，能在多大程度上提升立体匹配性能？
RQ4将CSPN与空间金字塔池化模块及多尺度特征融合结合，是否能在多种深度估计基准上带来一致的性能提升？
RQ5所提出的模块是否能在不同深度估计任务（如深度补全与立体匹配）中实现良好泛化，且仅需极少的架构修改？

主要发现

由于采用并行更新机制，CSPN在实际应用中相比SPN实现了2–5倍的速度提升，且未损失准确性。
在NYUv2数据集上，该方法在深度补全任务中将深度误差降低了30%以上，显著改善了结构对齐与细节恢复。
在KITTI立体2012和2015基准上，该方法排名第一，所有主要指标均比其他SOTA方法高出10%以上。
消融实验表明，将3DCSPN与增强的SPP模块（ACSPF）结合可获得最佳性能，在Scene Flow数据集上将EPE误差从0.971降低至0.902。
将CSPN集成到基线PSMNet中，使KITTI 2015上的D1误差率相比原始方法降低了30%以上。
定性结果表明，CSPN生成的深度图更加清晰，与物体边界对齐更好，且在虚线框标示的挑战区域中展现出更精细的细节。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。