QUICK REVIEW

[论文解读] Depth-aware CNN for RGB-D Segmentation

Weiyue Wang, Ulrich Neumann|arXiv (Cornell University)|Mar 19, 2018

Advanced Neural Network Applications参考文献 35被引用 18

一句话总结

本文提出深度感知CNN（Depth-aware CNN），一种轻量级框架，通过引入深度感知卷积和深度感知平均池化，将深度图像中的3D几何信息融入2D卷积神经网络（CNN），从而提升性能。通过基于深度相似性的特征传播加权机制，该方法在不增加参数量或计算成本的前提下，显著提升了RGB-D语义分割的准确性，在NYUv2数据集上实现了27.8%的mIoU和44.9%的fwIoU，达到当前最优性能。

ABSTRACT

Convolutional neural networks (CNN) are limited by the lack of capability to handle geometric information due to the fixed grid kernel structure. The availability of depth data enables progress in RGB-D semantic segmentation with CNNs. State-of-the-art methods either use depth as additional images or process spatial information in 3D volumes or point clouds. These methods suffer from high computation and memory cost. To address these issues, we present Depth-aware CNN by introducing two intuitive, flexible and effective operations: depth-aware convolution and depth-aware average pooling. By leveraging depth similarity between pixels in the process of information propagation, geometry is seamlessly incorporated into CNN. Without introducing any additional parameters, both operators can be easily integrated into existing CNNs. Extensive experiments and ablation studies on challenging RGB-D semantic segmentation benchmarks validate the effectiveness and flexibility of our approach.

研究动机与目标

解决标准CNN因固定网格卷积核结构而难以建模几何变化的问题。
通过高效融合深度图像中的3D几何信息，提升2D CNN在RGB-D语义分割中的性能。
开发一种利用深度相似性增强特征传播的方法，同时保持标准CNN的高效性。
消除对昂贵3D网络或双流架构的依赖，避免模型参数和计算成本翻倍。

提出的方法

提出深度感知卷积，通过基于卷积核中心与邻近像素之间深度相似性的权重，调整特征贡献。
在卷积核中引入深度相似性项，形成深度感知感受野，使几何结构引导信息流动。
提出深度感知平均池化，利用基于深度的成对相似性计算局部特征均值，实现几何感知的特征聚合。
使用深度相似性函数 $ F_{\mathbf{D}}(\mathbf{p}_i, \mathbf{p}_j) $，对深度相近的像素赋予更高权重，定义为：若 $ |\mathbf{D}(\mathbf{p}_i) - \mathbf{D}(\mathbf{p}_j)| < 1 $，则为1，否则为0。
将两种算子无缝集成到现有CNN中，仅需最小修改，替换标准卷积和池化层，且不增加参数量。
引入可学习的缩放参数 $ \alpha $ 以控制深度相似性的影响，消融实验表明在 $ \alpha = 8.3 $ 时性能最优。

实验结果

研究问题

RQ1能否在不增加模型复杂度的前提下，有效利用深度相似性来引导2D CNN中的特征传播？
RQ2与标准CNN相比，将深度图像中的几何结构信息融入后，语义分割性能提升效果如何？
RQ3深度感知操作在精度、效率和参数效率方面，能否优于双流或3D体素网络？
RQ4在RGB-D语义分割中，平衡几何与视觉特征的最优深度相似性函数及缩放因子 $ \alpha $ 是什么？

主要发现

在NYUv2测试集上，深度感知CNN实现了27.8%的平均交并比（mIoU），显著优于基线模型（15.9%）和HHA方法（21.9%）。
该方法达到频率加权IoU（fwIoU）为44.9%，优于基线模型（34.2%），并接近更复杂的双流网络性能。
当 $ \alpha = 8.3 $ 时，模型实现最优mIoU（27.8%），表明适度的深度相似性加权可获得最佳性能。
消融实验证实，引入深度敏感项可显著提升性能，即使采用截断版本 $ F_{\mathbf{D}} $ 也优于基线模型。
从头开始训练时，D-CNN在NYUv2数据集上的训练损失随时间下降更快，收敛速度优于基线模型。
运行时分析显示，D-CNN每轮前向传播耗时39.3ms，远快于基于3D CNN的方法[4]的214ms，且仅使用47.0M参数。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。