Skip to main content
QUICK REVIEW

[论文解读] SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling

Vijay Badrinarayanan, Ankur Handa|arXiv (Cornell University)|May 27, 2015
Advanced Neural Network Applications被引用 56
一句话总结

SegNet 提出了一种用于鲁棒语义像素级图像标注的深度编码器-解码器卷积神经网络,通过转移池化索引实现学习型上采样,从而在无需后处理的情况下生成平滑、精确的分割图。通过利用层次化特征学习和更深网络带来的空间上下文信息,该方法在 CamVid、KITTI 和 NYU 数据集上实现了最先进性能。

ABSTRACT

We propose a novel deep architecture, SegNet, for semantic pixel wise image labelling. SegNet has several attractive properties; (i) it only requires forward evaluation of a fully learnt function to obtain smooth label predictions, (ii) with increasing depth, a larger context is considered for pixel labelling which improves accuracy, and (iii) it is easy to visualise the effect of feature activation(s) in the pixel label space at any depth. SegNet is composed of a stack of encoders followed by a corresponding decoder stack which feeds into a soft-max classification layer. The decoders help map low resolution feature maps at the output of the encoder stack to full input image size feature maps. This addresses an important drawback of recent deep learning approaches which have adopted networks designed for object categorization for pixel wise labelling. These methods lack a mechanism to map deep layer feature maps to input dimensions. They resort to ad hoc methods to upsample features, e.g. by replication. This results in noisy predictions and also restricts the number of pooling layers in order to avoid too much upsampling and thus reduces spatial context. SegNet overcomes these problems by learning to map encoder outputs to image pixel labels. We test the performance of SegNet on outdoor RGB scenes from CamVid, KITTI and indoor scenes from the NYU dataset. Our results show that SegNet achieves state-of-the-art performance even without use of additional cues such as depth, video frames or post-processing with CRF models.

研究动机与目标

  • 解决现有深度学习模型在语义分割中使用复制等临时性上采样方法导致的块状和噪声预测问题。
  • 通过学习将编码器的低分辨率特征图映射到输入图像尺寸,使深层网络能够生成全分辨率分割图。
  • 通过加深网络层以增加空间上下文,提升分割精度,从而更好地理解场景结构和物体间关系。
  • 提供一种模块化、完全监督的架构,支持在任意网络深度进行特征激活可视化和消融研究。
  • 通过在新领域上使用预训练编码器权重进行最小微调,证明特征在不同数据集间的可迁移性。

提出的方法

  • SegNet 使用编码器块堆叠,每个块包含卷积、ReLU 激活以及 2×2 非重叠最大池化下采样。
  • 解码器堆叠与编码器对称,利用编码器最大池化层的池化索引执行非转置、可学习的上采样,以恢复空间维度。
  • 每个解码器块对上采样后的特征图应用可学习卷积滤波器,使网络能够学习特征空间的结构化、上下文感知重建。
  • 最终解码器输出通过 Softmax 层进行独立像素级分类,生成全分辨率分割图。
  • 整个网络通过交叉熵损失进行端到端、完全监督的训练,实现像素级分类。
  • 该架构在每层保持恒定数量的特征图(通常为 64 个),随深度增加降低计算成本,提升推理效率。

实验结果

研究问题

  • RQ1具有可学习上采样的深层编码器-解码器架构是否能优于使用临时性上采样方法的标准深层网络在语义分割中的表现?
  • RQ2增加网络深度(从而增加空间上下文)是否能带来更平滑、更精确的像素级预测?
  • RQ3在某一数据集(如 CamVid)上学习的特征是否能通过最小微调有效迁移到另一数据集(如 KITTI)?
  • RQ4与使用 CRF 后处理或多尺度特征的方法相比,所提出的架构在准确率和推理质量方面表现如何?
  • RQ5解码器堆叠在多大程度上可用于可视化和分析像素标签空间中特征激活的影响?

主要发现

  • SegNet 在 CamVid 数据集上实现了最先进性能,且无需使用 CRF 后处理、深度线索或视频帧。
  • 在 KITTI 数据集上,仅微调在 CamVid 上预训练的 SegNet 的最后一层即可获得强结果,证明了跨领域特征迁移的有效性。
  • 在 NYU 数据集上,SegNet 在 13 个类别中的 9 个类别上优于多尺度卷积网络,表明通过更深层上下文提升了对尺度变化的处理能力。
  • 通过转移池化索引实现的可学习上采样相比基于复制的上采样,生成了更平滑的分割图,减少了块状伪影。
  • 即使在不同数据集间使用固定的参数集,SegNet 仍能生成定性正确的分割结果,表明所学特征具有鲁棒的泛化能力。
  • 由于每层特征图数量保持恒定,每层的计算成本随深度增加而降低,使更深网络更高效且可扩展。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。