[论文解读] Semantic Diffusion Network for Semantic Segmentation
论文介绍了一种可学习的语义扩散网络(SDN),它通过近似各向异性扩散来增强语义分割中的类间边界,在几乎不增加成本的情况下提升边界质量,并且具备即插即用的兼容性。
Precise and accurate predictions over boundary areas are essential for semantic segmentation. However, the commonly-used convolutional operators tend to smooth and blur local detail cues, making it difficult for deep models to generate accurate boundary predictions. In this paper, we introduce an operator-level approach to enhance semantic boundary awareness, so as to improve the prediction of the deep semantic segmentation model. Specifically, we first formulate the boundary feature enhancement as an anisotropic diffusion process. We then propose a novel learnable approach called semantic diffusion network (SDN) to approximate the diffusion process, which contains a parameterized semantic difference convolution operator followed by a feature fusion module. Our SDN aims to construct a differentiable mapping from the original feature to the inter-class boundary-enhanced feature. The proposed SDN is an efficient and flexible module that can be easily plugged into existing encoder-decoder segmentation models. Extensive experiments show that our approach can achieve consistent improvements over several typical and state-of-the-art segmentation baseline models on challenging public benchmarks. The code will be released soon.
研究动机与目标
- 在算子层面推动边界感知的增强,以解决标准卷积中由卷核引起的模糊。
- 提出一个可微、可学习的扩散灵感模块,在增强类间边界的同时抑制类内噪声。
- 展示SDN可以在各种分割骨干网络中,作为编码器与解码器之间的颈部(neck)轻松集成。
- 在具有挑战性的基准测试中展示一致的边界质量与mIoU增益。
提出的方法
- 将边界增强表述为由语义特征引导的非线性各向异性扩散。
- 引入语义差分卷积(SDC),将可学习的卷积核与语义相似度作为扩散系数相结合。
- 通过拼接(U, Y)后再经1x1卷积,将SDN输出与原始特征融合。
- 将SDN嵌入为编码器与解码器之间的模块化颈部,兼容单尺度与多尺度解码器。
- 通过来自相邻层的逐尺度语义指导或顶部层的下采样副本,为多尺度骨干网络扩展SDN。
实验结果
研究问题
- RQ1算子级边界感知扩散是否能在不降低全局性能的前提下提升边界精度?
- RQ2可学习的扩散代理(SDN)在分割任务中是否优于原生卷积等其他边界导向算子?
- RQ3SDN是否与多样化的骨干网络(CNN与Transformer)及解码器配置兼容,同时保持效率?
- RQ4与后处理或基于损失的边界方法相比,边界质量的影响(1px/3px的F-score)是多少?
主要发现
| Method | Encoder | ADE20K mIoU (s.s.) | Cityscapes mIoU (s.s.) | ADE20K mIoU (m.s.) | Cityscapes mIoU (m.s.) |
|---|---|---|---|---|---|
| FCN | ResNet-50 | 36.10 | 38.08 | 72.64 | 73.32 |
| FCN+Ours | ResNet-50 | 38.12 (+2.02) | 39.36 (+1.28) | 74.75 (+2.11) | 75.79 (+2.47) |
| SemanticFPN | ResNet-50 | 37.49 | 39.09 | 74.10 | 75.98 |
| SemanticFPN+Ours | ResNet-50 | 38.79 (+1.30) | 40.27 (+1.18) | 75.97 (+1.87) | 77.31 (+1.33) |
| Segmenter | ViT-B | 48.48 | 50.00 | 77.97 | 80.07 |
| Segmenter+Ours | ViT-B | 51.05 (+2.57) | 52.18 (+2.18) | 79.42 (+1.45) | 81.38 (+1.31) |
- SDN 在ADE20K和Cityscapes上对基线CNN的mIoU持续提升(例如:FCN +2.02% s.s. 与 +2.11% mIoU,SemanticFPN +1.30% s.s. 与 +1.87% mIoU,Segmenter +2.57% s.s. 与 +1.45% mIoU)。
- SDN带来显著的边界质量提升,在Cityscapes上相对于OCRNet,1px/3px的F-score分别提高了+4.3和+1.5。
- SDN的语义差分卷积(SDC)在边界F-score方面优于普通卷积和中心差分卷积(SDC: 69.5 vs. Vanilla 65.2 和 CDC 60.1)。
- 增大SDC卷积核尺寸影响有限,而大膨胀会降低性能;3x3配合适度膨胀(1)效果良好。
- SDN保持兼容性,与其他边界方法(DenseCRF、SegFix、InverseForm)组合时可进一步提升性能。
- SDN以相对较低的计算开销实现边界增强,且可嵌入到单尺度和多尺度解码器中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。