[论文解读] Gated-SCNN: Gated Shape CNNs for Semantic Segmentation
GSCNN 引入一个双流架构,将形状/边界处理与标准分割流分离,流之间使用门控以及双任务损失以提升边界质量和对薄物体的性能,在 Cityscapes 上达到最先进水平而无需粗糙数据。
Current state-of-the-art methods for image segmentation form a dense image representation where the color, shape and texture information are all processed together inside a deep CNN. This however may not be ideal as they contain very different type of information relevant for recognition. Here, we propose a new two-stream CNN architecture for semantic segmentation that explicitly wires shape information as a separate processing branch, i.e. shape stream, that processes information in parallel to the classical stream. Key to this architecture is a new type of gates that connect the intermediate layers of the two streams. Specifically, we use the higher-level activations in the classical stream to gate the lower-level activations in the shape stream, effectively removing noise and helping the shape stream to only focus on processing the relevant boundary-related information. This enables us to use a very shallow architecture for the shape stream that operates on the image-level resolution. Our experiments show that this leads to a highly effective architecture that produces sharper predictions around object boundaries and significantly boosts performance on thinner and smaller objects. Our method achieves state-of-the-art performance on the Cityscapes benchmark, in terms of both mask (mIoU) and boundary (F-score) quality, improving by 2% and 4% over strong baselines.
研究动机与目标
- 在语义分割中将形状/边界信息与颜色/纹理信息解耦的动机。
- 开发一个两流 CNN,其中形状流并行处理边界相关信息,与常规分割流协同工作。
- 引入门控机制(Gated Convolutional Layers)以连接常规流的中间激活,从而去噪并引导形状流。
- 端到端训练,使用双任务损失:带边界感知的辅助任务以使预测与真实边界对齐的分割。
- 利用融合模块在保留多尺度上下文的同时结合形状和区域特征,从而提高手边界清晰度和对小对象的识别。
提出的方法
- 两流架构:一个常规分割流(类似 ResNet/WideResNet 的骨干网络)和一个专注于边界的形状流。
- 门控卷积层(GCL),利用来自常规流的高级信息通过注意力图门控/去噪形状流的早期激活。
- 形状流使用边界真实标签并以二元交叉熵损失进行监督。
- 融合模块通过 Atrous Spatial Pyramid Pooling (ASPP) 将常规流特征与形状流边界结合,以产生最终分割。
- 双任务正则化器,强制边界与分割之间的一致性,并促使预测边界与语义标签对齐。
- 端到端联合优化,包含损失:边界 BCE、分割 CE 及正则项;对通过不可微的边界推导组件的梯度流使用 Gumbel-softmax。
实验结果
研究问题
- RQ1将形状/边界信息分离到一个专用流中是否可以改善语义分割,特别是在对象边界和薄对象上的表现?
- RQ2如何设计常规分割流与形状/边界流之间的门控以去噪并将形状流聚焦于边界相关特征?
- RQ3用边界导向的辅助任务和双任务正则化进行的联合训练是否能改善边界对齐和整体分割指标?
- RQ4在主分割网络的高层特征引导下,浅层高分辨率的形状流是否可行且有益?
- RQ5GSCNN 在 Cityscapes 上在不同骨干网络及不同距离(基于距离的评估)下的表现如何?
主要发现
- GSCNN 相较于强基线在 Cityscapes 上实现了更高的 mIoU 和边界质量,对更薄/更小的对象(如杆、交通标志/灯具)有显著增益。
- 形状流在常规流的门控下保持轻量级,但能够产生高质量、与类别无关的边界,提升与区域特征的融合。
- 门控卷积层有效过滤形状流激活以聚焦于边界相关信息,使高分辨率处理在计算量不重的情况下实现。
- 双任务正则化器通过将边界预测与最终类别预测耦合,进一步改善边界对齐和分割语义。
- 基于距离的评估显示 GSCNN 在远距离/较小对象上保持优势,在较大裁剪因子下mIoU 提升约6%,并在没有粗数据的情况下在 Cityscapes 上实现整体的最先进性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。