[论文解读] ExFuse: Enhancing Feature Fusion for Semantic Segmentation
ExFuse 在低级特征和高级特征之间架起语义与分辨率的桥梁,提升特征融合,带来4%的总体提升,并在 PASCAL VOC 2012 上达到最优越的结果。
Modern semantic segmentation frameworks usually combine low-level and high-level features from pre-trained backbone convolutional models to boost performance. In this paper, we first point out that a simple fusion of low-level and high-level features could be less effective because of the gap in semantic levels and spatial resolution. We find that introducing semantic information into low-level features and high-resolution details into high-level features is more effective for the later fusion. Based on this observation, we propose a new framework, named ExFuse, to bridge the gap between low-level and high-level features thus significantly improve the segmentation quality by 4.0\% in total. Furthermore, we evaluate our approach on the challenging PASCAL VOC 2012 segmentation benchmark and achieve 87.9\% mean IoU, which outperforms the previous state-of-the-art results.
研究动机与目标
- 动机与分析为什么将低级特征与高级特征的朴素融合因语义与分辨率差异而无效。
- 开发将语义信息注入低级特征和将空间信息注入高级特征的技术。
- 提出 ExFuse 作为一个框架来弥合这些差距并提升分割性能。
- 在消融实验中展示改进并在 PASCAL VOC 2012 上建立最先进的结果。
提出的方法
- 通过层级重排使低级特征更接近语义监督,同时不改变整体容量。
- 通过在早期编码阶段附加辅助语义分支进行语义监督,以丰富低级特征。
- 语义嵌入分支(SEB)将高级语义引导融入残差融合。
- 显式通道分辨率嵌入(ECRE)采用无参数上采样(子像素)将更高分辨率的信息嵌入到高级特征中。
- 密集相邻预测(DAP)通过对通道分组进行多位置预测,将空间信息在相邻像素之间传播。
实验结果
研究问题
- RQ1在类似 U-Net 的语义分割结构中,弥合低级与高级特征之间的语义与分辨率差距是否能提高融合效果?
- RQ2低级语义增强和高级空间增强各自对性能提升的贡献有多大?
- RQ3所提出的 ExFuse 技术是否能从 GCN 泛化到常规 U-Net 和其他视觉任务?
- RQ4使用更大的骨干网络和 COCO 预训练对 VOC 2012 结果有何影响?
- RQ5改进主要归因于融合策略还是骨干网络的改进?
主要发现
- ExFuse 在 PASCAL VOC 2012 验证集上相对于基线 GCN 设置实现了总计 4.0% mIoU 的提升。
- 在 VOC 2012 测试集上,搭载 ResNeXt-131 的 ExFuse 达到 87.9% mIoU,超越了在后处理之前的前沿方法。
- 层级重排、语义监督和 SEB 各自对低级特征质量贡献了增量提升。
- ECRE 带来 0.5% mIoU 的提升,表明显式的高分辨率嵌入是有益的。
- DAP 提供了 0.6% mIoU 的提升。
- 在 COCO 预训练和测试时的增强(翻转)下,ExFuse-131 的 VOC 2012 验证达到 85.8%、测试达到 87.9% mIoU,相较于基线。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。