[论文解读] Stacked Deconvolutional Network for Semantic Segmentation
论文提出了 Stacked Deconvolutional Network (SDN),通过堆叠浅层去卷积单元并在单元内/单元间使用密集连接和分层监督,以在不进行 CRF 后处理的情况下实现语义分割的最新性能。
Recent progress in semantic segmentation has been driven by improving the spatial resolution under Fully Convolutional Networks (FCNs). To address this problem, we propose a Stacked Deconvolutional Network (SDN) for semantic segmentation. In SDN, multiple shallow deconvolutional networks, which are called as SDN units, are stacked one by one to integrate contextual information and guarantee the fine recovery of localization information. Meanwhile, inter-unit and intra-unit connections are designed to assist network training and enhance feature fusion since the connections improve the flow of information and gradient propagation throughout the network. Besides, hierarchical supervision is applied during the upsampling process of each SDN unit, which guarantees the discrimination of feature representations and benefits the network optimization. We carry out comprehensive experiments and achieve the new state-of-the-art results on three datasets, including PASCAL VOC 2012, CamVid, GATECH. In particular, our best model without CRF post-processing achieves an intersection-over-union score of 86.6% in the test set.
研究动机与目标
- 在 FCN 框架下提高空间分辨率和边界界定的动机。
- 通过堆叠浅层去卷积单元以捕获多尺度上下文,提出一个可扩展、可训练的架构。
- 通过单元内和单元间的密集连接以及分层监督来促进优化。
- 在 PASCAL VOC 2012、CamVid 和 GATECH 数据集上展示最先进的性能。
- 展示最佳模型在无需 CRF 后处理的情况下实现高 Mean IoU。
提出的方法
- 引入 SDN 单元:具有下采样和上采样路径的编码器-解码器块。
- 在下采样块中使用受 DenseNet 启发的密集连接以促进特征复用。
- 加入单元内密集连接和单元间跳跃连接,以改善梯度流动和多尺度特征融合。
- 在多层上采样阶段应用分层监督以增强判别性和优化。
- 在上采样过程中跨单元和尺度融合得分图以增强边界定位。
- 以预训练的 DenseNet-161 作为第一个编码器,后续单元由下采样/上采样块和压缩块构成。
- 通过数据增强、poly 学习率策略和端到端优化进行训练;测试使用最高分辨率的最后一单元输出。
实验结果
研究问题
- RQ1在具有密集 intra-/inter-unit 连接的堆叠浅层去卷积单元是否能在边界定位和分割精度上优于单一深层去卷积网络?
- RQ2在多个上采样阶段的分层监督和分数图融合是否能带来更好的优化和像素级预测的判别?
- RQ3在大规模分类器网络(DenseNet-161)的预训练以及分阶段上采样,对在标准基准上的分割性能有何影响?
- RQ4与最先进方法相比,SDN 在 PASCAL VOC 2012、CamVid 和 GATECH 的表现如何?
- RQ5堆叠单元数量和监督配置的变化对 Mean IoU 有何影响?
主要发现
- 在 PASCAL VOC 2012 验证集上,使用三个堆叠单元的 SDN 得出比较少单元更高的 Mean IoU。
- 分层监督和单元内/单元间的密集连接提高了训练稳定性和边界细节,从而带来性能提升。
- 分数图融合和额外的上采样块在 Mean IoU 上带来可观的提升。
- 在 MS-COCO 上对 SDN-M2* 进行预训练可进一步提升性能,在 Mean IoU 上超过显著的基线(例如 Deeplabv3)。
- SDN 系列在 PASCAL VOC 2012、CamVid 和 GATECH 基准测试中达到最先进的结果,在无需 CRF 后处理时表现出显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。