Skip to main content
QUICK REVIEW

[论文解读] ShelfNet for Real-time Semantic Segmentation

Juntang Zhuang, Junlin Yang|arXiv (Cornell University)|Nov 27, 2018
Advanced Neural Network Applications参考文献 30被引用 8
一句话总结

ShelfNet 是一种新颖且高效的实时语义分割架构,采用多分支编码器-解码器结构与多级跳跃连接,形成类似置物架的结构。通过减少通道数并采用残差块中的参数共享策略,其推理速度比 PSPNet 快 4 倍,且在 Cityscapes 数据集上的精度高于 BiSeNet,使用 ResNet34 主干网络时达到 79.0% 的 mIoU。

ABSTRACT

In this paper, we present ShelfNet, a novel architecture for accurate fast semantic segmentation. Different from the single encoder-decoder structure, ShelfNet has multiple encoder-decoder branch pairs with skip connections at each spatial level, which looks like a shelf with multiple columns. The shelf-shaped structure can be viewed as an ensemble of multiple deep and shallow paths, thus improving accuracy. We significantly reduce computation burden by reducing channel number, at the same time achieving high accuracy with this unique structure. In addition, we propose a shared-weight strategy in the residual block which reduces parameter number without sacrificing performance. Compared with popular non real-time methods such as PSPNet, our ShelfNet achieves 4$ imes$ faster inference speed with similar accuracy on PASCAL VOC dataset. Compared with real-time segmentation models such as BiSeNet, our model achieves higher accuracy at comparable speed on the Cityscapes Dataset, enabling the application in speed-demanding tasks such as street-scene understanding for autonomous driving. Furthermore, our ShelfNet achieves 79.0\% mIoU on Cityscapes Dataset with ResNet34 backbone, outperforming PSPNet and BiSeNet with large backbones such as ResNet101. Through extensive experiments, we validated the superior performance of ShelfNet. We provide link to the implementation \url{this https URL}.

研究动机与目标

  • 开发一种实时语义分割模型,在自动驾驶等对速度要求高的应用中保持高精度。
  • 解决现有深度学习模型在推理速度与分割精度之间的权衡问题。
  • 通过架构创新降低计算与参数成本,同时不牺牲性能。
  • 通过最小化模型复杂度,实现在资源受限设备上的高效部署。

提出的方法

  • ShelfNet 采用类似置物架的架构,包含多个并行的编码器-解码器分支对,并在每个空间层级通过跳跃连接连接。
  • 通过在所有分支中减少通道维度,显著降低 FLOPs 和参数量。
  • 在残差块中应用参数共享策略,以减少模型参数量,同时保持特征表示能力。
  • 在多尺度上实现跳跃连接,以增强特征融合与梯度流动。
  • 架构设计兼容轻量化主干网络(如 ResNet34)。
  • 模型在 PASCAL VOC 和 Cityscapes 等标准基准数据集上进行端到端训练。

实验结果

研究问题

  • RQ1多分支编码器-解码器结构是否能在保持实时推理速度的同时提升语义分割精度?
  • RQ2在分支中减少通道维度对模型性能与效率有何影响?
  • RQ3在残差块中采用参数共享策略,能在多大程度上减少参数量而不降低精度?
  • RQ4在速度-精度权衡方面,ShelfNet 与当前最先进的非实时及实时模型相比表现如何?
  • RQ5当与置物架形架构结合时,轻量化主干网络(如 ResNet34)能否实现具有竞争力的性能?

主要发现

  • 在 PASCAL VOC 数据集上,ShelfNet 的推理速度比 PSPNet 快 4 倍,同时保持相似的精度。
  • 在 Cityscapes 数据集上,使用 ResNet34 主干网络的 ShelfNet 达到 79.0% 的 mIoU,优于使用更大主干网络的 PSPNet 和 BiSeNet。
  • 模型的推理速度与 BiSeNet 相当,但在 Cityscapes 上的精度显著更高。
  • 残差块中的参数共享策略在不造成性能下降的前提下减少了模型参数量。
  • 多级跳跃连接与多分支结构增强了特征学习与梯度流动,从而提升了精度。
  • 该架构展现出强大的效率与可扩展性,适用于自动驾驶等实时应用场景。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。