QUICK REVIEW

[论文解读] Indoor Semantic Segmentation using depth information

Camille Couprie, Clément Farabet|arXiv (Cornell University)|Jan 16, 2013

Advanced Vision and Imaging被引用 336

一句话总结

本文提出一种多尺度卷积神经网络，利用RGB-D输入执行室内语义分割，直接从深度和彩色数据中学习特征。在NYU-v2数据集上，该方法实现了64.5%的像素准确率，显著优于依赖SIFT等手工特征及CRF后处理的先前方法。

ABSTRACT

This work addresses multi-class segmentation of indoor scenes with RGB-D inputs. While this area of research has gained much attention recently, most works still rely on hand-crafted features. In contrast, we apply a multiscale convolutional network to learn features directly from the images and the depth information. We obtain state-of-the-art on the NYU-v2 depth dataset with an accuracy of 64.5%. We illustrate the labeling of indoor scenes in videos sequences that could be processed in real-time using appropriate hardware such as an FPGA.

研究动机与目标

解决使用RGB-D输入进行多类室内场景分割的挑战，其中传统方法依赖手工设计的特征。
探索深度信息融入语义分割中时，深度特征学习的有效性。
提升在NYU-v2数据集上的性能，该数据集包含具有遮挡和光照不均的复杂真实室内场景。
通过高效的网络设计和时间平滑，实现实时视频序列处理。
展示模型在不同语义类别分组（如用于物体支撑推理的4类设置）中的灵活性。

提出的方法

该模型使用多尺度卷积网络，对RGB和深度图像的拉普拉斯金字塔表示在多个分辨率下进行处理。
每个尺度输入一个三阶段卷积网络，包含滤波器组、非线性激活函数和池化层，以提取分层特征。
在将粗糙特征图上采样至最细尺度后，将所有尺度的特征图进行拼接，为每个像素生成上下文丰富的特征向量。
独立计算超像素分割以保留图像轮廓，并用于聚合分类器预测，提升空间一致性。
通过端到端反向传播训练网络，以像素为单位预测语义标签，将深度信息作为额外输入通道。
使用[5]中的超像素对视频序列应用时间平滑，实现实时推理且延迟极低。

实验结果

研究问题

RQ1一种直接从RGB-D数据中学习特征的深度学习方法，是否能超越依赖SIFT和CRF等手工特征的传统方法？
RQ2在复杂室内场景中，深度信息的整合如何提升语义分割的准确率？
RQ3具有共享权重的多尺度卷积网络，在存在遮挡和光照变化的多样化室内环境中，其泛化能力如何？
RQ4所提方法能否实现实时处理视频序列，适用于机器人或交互式应用？
RQ5在不同语义类别分组（如用于物体支撑推理的4类设置）下，模型性能如何？

主要发现

所提出的带深度输入的多尺度卷积网络在NYU-v2数据集上实现了64.5%的像素准确率，成为发表时的最先进水平。
与Silberman等人[23]相比，该模型在地面类别的预测上提升了19.3个百分点，准确率从68%提高到87.3%。
与Silberman等人方法相比，加入深度信息使像素级准确率提升了6%，从58.6%上升至64.5%。
在结构类别预测上，像素准确率提升了4%，达到87.8%，表明深度信息对结构元素具有显著优势。
系统在笔记本电脑上处理320x240分辨率帧耗时0.7秒，每帧额外增加0.1秒用于时间平滑，实现接近实时的视频处理。
在4类设置下，模型在'家具'类别上表现下降，可能由于训练数据中类别模糊，表明需要更优的数据平衡策略。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。