[论文解读] Real-Time Semantic Segmentation via Multiply Spatial Fusion Network
MSFNet 引入一个多特征融合模块,具有空间感知池化和分类边界监督,以在高分辨率图像上实现快速、准确的实时语义分割。
Real-time semantic segmentation plays a significant role in industry applications, such as autonomous driving, robotics and so on. It is a challenging task as both efficiency and performance need to be considered simultaneously. To address such a complex task, this paper proposes an efficient CNN called Multiply Spatial Fusion Network (MSFNet) to achieve fast and accurate perception. The proposed MSFNet uses Class Boundary Supervision to process the relevant boundary information based on our proposed Multi-features Fusion Module which can obtain spatial information and enlarge receptive field. Therefore, the final upsampling of the feature maps of 1/8 original image size can achieve impressive results while maintaining a high speed. Experiments on Cityscapes and Camvid datasets show an obvious advantage of the proposed approach compared with the existing approaches. Specifically, it achieves 77.1% Mean IOU on the Cityscapes test dataset with the speed of 41 FPS for a 1024*2048 input, and 75.4% Mean IOU with the speed of 91 FPS on the Camvid test dataset.
研究动机与目标
- 为高分辨率场景下的实时语义分割提供动机,即速度和精度同样关键。
- 开发一个对骨干网络友好、高效的架构,在不增加大量计算的同时扩大感受野。
- 通过融合多尺度特征在保持实时推理的同时保留空间信息。
- 通过一个类别边界监督机制来减轻与边缘相关的信息损失。
- 在 Cityscapes 和 CamVid 基准测试上展示最前沿的实时性能。
提出的方法
- 引入 Spatial Aware Pooling (SAP),在每个骨干模块之后提取多尺度特征。
- 构建一个 Multi-features Fusion Module (MFM),在相同分辨率下融合输出并以低成本扩大感受野。
- 提出 Class Boundary Supervision (CBS),采用两条独立的上采样分支以恢复边缘信息。
- 将最终特征图从输入尺寸的 1/8 进行上采样,以在保持速度的同时保留细节。
- 使用轻量级的 ResNet-18 骨干网络和简单的编码器-解码器流程,配合深度可分离卷积以降低计算量。
- 采用同时考虑语义分割损失与边界聚焦损失的双重损失目标进行训练。
实验结果
研究问题
- RQ1如何在实时环境下设计多尺度特征融合,以在保持空间细节的同时扩展感受野?
- RQ2边界感知监督是否能在不损害速度的前提下改善边缘保留和总体分割精度?
- RQ3在标准数据集上,不同的 SAP 配置和 CBS 设计对 mIoU 与 FPS 的影响是什么?
主要发现
- 在 Cityscapes 上,对于输入 1024x2048,在开启 CBS 的情况下达到 77.1% mIoU,41 FPS。
- 不含 CBS 时,Cityscapes 性能达到 75.4% mIoU,47 FPS;含 CBS 时,77.1% mIoU,41 FPS。
- 输入 512x1024 的 Cityscapes 上,达到 71.3% mIoU,117 FPS。
- 在 CamVid 上,512x1024 输入时达到 75.4% mIoU,91 FPS;1024x2048 输入时达到 72.7% mIoU,160 FPS。
- 消融实验表明,在实时模式下,MFM 与 CBS 相较基线编码器/解码器贡献显著的提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。