[论文解读] Real-time Semantic Image Segmentation via Spatial Sparsity
该论文在一个两列 FCN 中引入空间稀疏性,以在高分辨率路径中跳过处理,在 Cityscapes 上实现了约 25× 的加速,精度损失有限。改进的模型在 GTX 980 上实现实时速度下的 72.9% 的 mean IoU。
We propose an approach to semantic (image) segmentation that reduces the computational costs by a factor of 25 with limited impact on the quality of results. Semantic segmentation has a number of practical applications, and for most such applications the computational costs are critical. The method follows a typical two-column network structure, where one column accepts an input image, while the other accepts a half-resolution version of that image. By identifying specific regions in the full-resolution image that can be safely ignored, as well as carefully tailoring the network structure, we can process approximately 15 highresolution Cityscapes images (1024x2048) per second using a single GTX 980 video card, while achieving a mean intersection-over-union score of 72.9% on the Cityscapes test set.
研究动机与目标
- 推动对高分辨率图像(Cityscapes)进行实时语义分割。
- 引入空间稀疏性以在不造成大幅精度损失的情况下减少计算。
- 探索具有粗到细融合和跨列连接的两列体系结构。
- 在 Cityscapes 上评估与最先进方法的有效性与速度对比。
提出的方法
- 扩展一个包含半分辨率输入和全分辨率输入的两列 FCN。
- 引入稀疏权重映射,以识别全分辨率路径中可以跳过的区域。
- 通过概率性激活约束和每图像区域惩罚来训练稀疏性。
- 结合粗到细融合、uncrop 训练和跨列连接以稳定快速推断。
- 系统地移除残差单元以减少计算量,并采用训练策略以缓解精度损失。
实验结果
研究问题
- RQ1在两列 FCN 中的空间稀疏性是否能够在不造成大幅精度下降的情况下显著降低高分辨率语义分割的计算量?
- RQ2在 Cityscapes 上,带稀疏性的粗到细融合与其他融合策略相比如何?
- RQ3哪些训练策略(uncrop、跨列连接、残差单元移除)在快速推断下最能保持精度?
- RQ4使用所提出的 ISCTF 模型时,在 Cityscapes 上的速度与分割质量之间的权衡是多少?
主要发现
- 稀疏粗到细(SCTF)方法将计算量约降低 35%,但相对于基线的粗到细方法,平均 IoU 略低 0.42%。
- 改进的稀疏粗到细(ISCTF)方法在某一配置下达到 75.40% mean IoU,在 139g 计算量时,与非稀疏基线相匹配或略有超越。
- ISCTF 的快速推断提供稳定结果,缓解 SCTF 中的边界问题。
- 在 Cityscapes 验证集上,空间稀疏性加快推断在计算量上最多可降低约 50%,在某些设置下精度损失仅约 0.6%。
- 该方法在最佳折衷配置(ISCTF)下实现 ≈25× 的计算成本降低(31.5g 对比 786g 基线),mean IoU 下降约 2.0%。
- Compared to prior real-time methods, the proposed approach attains 72.9% mean IoU at 14.7 fps (68 ms per image) on a GTX 980.
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。