Skip to main content
QUICK REVIEW

[论文解读] GFF: Gated Fully Fusion for Semantic Segmentation

Xiangtai Li, Houlong Zhao|arXiv (Cornell University)|Apr 3, 2019
Advanced Neural Network Applications参考文献 56被引用 35
一句话总结

引入 Gated Fully Fusion (GFF),通过门控选择性融合多级特征,在 Dense Feature Pyramid 的增强下,在 Cityscapes、Pascal Context、COCO-stuff 和 ADE20K 上实现语义分割的 SOTA 成果。

ABSTRACT

Semantic segmentation generates comprehensive understanding of scenes through densely predicting the category for each pixel. High-level features from Deep Convolutional Neural Networks already demonstrate their effectiveness in semantic segmentation tasks, however the coarse resolution of high-level features often leads to inferior results for small/thin objects where detailed information is important. It is natural to consider importing low level features to compensate for the lost detailed information in high-level features.Unfortunately, simply combining multi-level features suffers from the semantic gap among them. In this paper, we propose a new architecture, named Gated Fully Fusion (GFF), to selectively fuse features from multiple levels using gates in a fully connected way. Specifically, features at each level are enhanced by higher-level features with stronger semantics and lower-level features with more details, and gates are used to control the propagation of useful information which significantly reduces the noises during fusion. We achieve the state of the art results on four challenging scene parsing datasets including Cityscapes, Pascal Context, COCO-stuff and ADE20K.

研究动机与目标

  • 通过兼顾高层语义和高分辨率细节,推动改进的语义分割。
  • 开发一种在多个特征层之间有选择地传播信息的融合机制。
  • 引入上下文建模,以增强多级特征的语义表征。
  • 在多个标准场景解析基准上展示最先进性能。

提出的方法

  • 提出 Gated Fully Fusion (GFF),通过逐像素门控来控制信息传播,以融合多级特征。
  • 将门控图 G_l 公式化为 sigmoid(w_l * X_l),以在融合过程中调节发送端与接收端的信息。
  • 将每个层 l 的融合定义为门控相加:X̃_l = (1+G_l)·X_l + (1−G_l)·∑_{i≠l} G_i·X_i。
  • 引入 Dense Feature Pyramid (DFP),使 PSPNet 风格的上下文与所有特征图密集连接,以丰富上下文提示。
  • 端到端训练,使用主要分割损失,并在中间的 ResNet 阶段加入辅助损失以稳定优化。
  • 可选地将骨干网络融合扩展为自上而下的门控通路,并在精度的同时评估计算成本。

实验结果

研究问题

  • RQ1多级特征的门控、全连接融合是否比传统的局部或自上而下融合方法提升分割精度?
  • RQ2逐像素门控在融合过程中是否能有效抑制噪声信息,保留小型/细长物体的细节?
  • RQ3添加 Dense Feature Pyramid (DFP) 如何影响上下文建模和最终分割性能?
  • RQ4GFF 和 DFP 的改进是否在不同数据集和骨干网络上具有一致性?
  • RQ5将 GFF 和 DFP 集成到现有架构时,精度提升与计算成本之间的权衡是什么?

主要发现

方法Cityscapes mIoU (%)
PSPNet (Baseline)78.6
PSPNet + Concat78.8
PSPNet + Addition78.7
PSPNet + FPN79.3
PSPNet + Gated FPN79.4
PSPNet + GFF80.4
  • GFF 在 Cityscapes 验证集相对于 PSPNet 基线和其他融合变体具有一致的改进,PSPNet + GFF 达到 80.4% mIoU。
  • 添加 DFP 进一步提升性能,GFF + DFP 为 81.2%,多尺度推断 (MS) 为 81.8%。
  • 使用 ResNet101 骨干时,该方法在 Cityscapes 测试集达到 82.3% mIoU,在仅用精细数据训练时,WiderResNet 能达到 83.3% mIoU。
  • 与级联、相加和 FPN 等传统融合方法相比,GFF 在处理小型/细长物体及对象边界方面表现更优。
  • 在 Pascal Context、COCO-stuff 和 ADE20K 上,GFFNet 变体达到领先或接近领先的结果,表明在数据集与后端网络上的通用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。