[论文解读] Large Kernel Matters -- Improve Semantic Segmentation by Global Convolutional Network
本文提出全局卷积网络(GCN),一种新颖的全卷积架构,通过使用大尺寸、对称且可分离的卷积核,提升语义分割中的分类与定位性能。通过集成基于残差的边界精炼模块以实现精确的边缘预测,该方法在PASCAL VOC 2012上达到82.2%的平均IoU,在Cityscapes上达到76.9%,显著优于先前方法,性能达到当前最先进水平。
One of recent trends [30, 31, 14] in network architec- ture design is stacking small filters (e.g., 1x1 or 3x3) in the entire network because the stacked small filters is more ef- ficient than a large kernel, given the same computational complexity. However, in the field of semantic segmenta- tion, where we need to perform dense per-pixel prediction, we find that the large kernel (and effective receptive field) plays an important role when we have to perform the clas- sification and localization tasks simultaneously. Following our design principle, we propose a Global Convolutional Network to address both the classification and localization issues for the semantic segmentation. We also suggest a residual-based boundary refinement to further refine the ob- ject boundaries. Our approach achieves state-of-art perfor- mance on two public benchmarks and significantly outper- forms previous results, 82.2% (vs 80.2%) on PASCAL VOC 2012 dataset and 76.9% (vs 71.8%) on Cityscapes dataset.
研究动机与目标
- 解决语义分割中分类不变性与定位敏感性之间的固有矛盾。
- 通过大卷积核卷积增强有效感受野,提升密集像素预测性能。
- 通过避免全局池化和全连接层,保持定位精度。
- 通过端到端可训练的残差边界精炼模块,优化物体边界。
- 在不依赖后处理CRF的情况下,实现在标准基准上的最先进性能。
提出的方法
- 提出一种使用大尺寸、对称且可分离卷积核的全局卷积网络(GCN),以扩大有效感受野并增强特征连通性。
- 设计全卷积编码器-解码器框架,以保留空间分辨率和定位精度。
- 引入边界精炼(BR)模块作为残差模块,在物体边界附近精炼分割图。
- 将BR模块与主干网络端到端联合训练,避免依赖后处理CRF。
- 使用多尺度推理和CRF后处理作为消融实验基线,以验证性能提升。
- 采用三阶段训练策略:在COCO上预训练,于SBD和VOC上微调,最后仅在VOC上进行最终微调。
实验结果
研究问题
- RQ1大卷积核卷积是否能通过增强特征表示和有效感受野来提升语义分割性能?
- RQ2在全卷积网络中使用大卷积核时,模型容量与参数效率之间的权衡如何变化?
- RQ3可学习的、基于残差的边界精炼模块是否能优于传统的CRF后处理方法?
- RQ4所提出的GCN架构是否能在不依赖CRF或多尺度测试的情况下实现在标准基准上的最先进性能?
- RQ5GCN的设计在多大程度上解决了密集预测任务中分类与定位之间的权衡问题?
主要发现
- GCN模型在PASCAL VOC 2012测试集上达到82.2%的平均IoU,超越此前最先进方法的80.2%。
- 在Cityscapes数据集上,该方法达到76.9%的平均IoU,显著优于先前最先进方法的71.8%。
- 边界精炼模块在PASCAL VOC 2012上提升1.6%(从80.3%提升至82.2%),在Cityscapes上提升3.9%(从73.0%提升至76.9%)。
- 消融实验表明,采用对称可分离滤波器的大卷积核在感受野大小与参数效率之间提供了有利的权衡。
- GCN + BR模型优于标准的多尺度推理和CRF后处理,证明了端到端边界学习的有效性。
- 定性结果表明,GCN改善了内部区域的预测,而BR模块则显著提升了边界精度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。