QUICK REVIEW

[论文解读] Context Encoding for Semantic Segmentation

Hang Zhang, Kristin Dana|arXiv (Cornell University)|Mar 23, 2018

Advanced Neural Network Applications参考文献 51被引用 135

一句话总结

引入一个上下文编码模块（EncNet），通过编码层利用全局场景上下文和语义编码损失，在几乎不增加额外计算的情况下提升语义分割效果，在 PASCAL VOC 2012、PASCAL-Context 和 ADE20K 上达到最先进的结果。

ABSTRACT

Recent work has made significant progress in improving spatial resolution for pixelwise labeling with Fully Convolutional Network (FCN) framework by employing Dilated/Atrous convolution, utilizing multi-scale features and refining boundaries. In this paper, we explore the impact of global contextual information in semantic segmentation by introducing the Context Encoding Module, which captures the semantic context of scenes and selectively highlights class-dependent featuremaps. The proposed Context Encoding Module significantly improves semantic segmentation results with only marginal extra computation cost over FCN. Our approach has achieved new state-of-the-art results 51.7% mIoU on PASCAL-Context, 85.9% mIoU on PASCAL VOC 2012. Our single model achieves a final score of 0.5567 on ADE20K test set, which surpass the winning entry of COCO-Place Challenge in 2017. In addition, we also explore how the Context Encoding Module can improve the feature representation of relatively shallow networks for the image classification on CIFAR-10 dataset. Our 14 layer network has achieved an error rate of 3.45%, which is comparable with state-of-the-art approaches with over 10 times more layers. The source code for the complete system are publicly available.

研究动机与目标

在分割过程中，通过利用全局场景上下文来减少可能的对象类别搜索空间，从而提高性能。
开发一个轻量级模块，编码全局特征统计并有选择地对类别相关特征图进行缩放。
通过语义编码损失对训练进行正则化，以鼓励识别场景中存在的类别。
将上下文编码模块集成到带膨胀卷积的 FCN 骨干网络（EncNet）中，并在标准基准数据集上进行评估。
展示上下文编码对较浅网络在图像分类（CIFAR-10）上的额外好处。

提出的方法

将 Encoding Layer 的能力扩展以从密集卷积特征中捕获全局上下文统计信息。
预测来自 Encoding Layer 输出的通道级缩放因子，并通过逐元素相乘将其应用于特征图。
引入语义编码损失（SE-loss），预测场景中对象类别的存在性以对训练进行正则化。
通过在预训练的带膨胀卷积的 ResNet 之上插入上下文编码模块来构建 EncNet，并在多个阶段可选地应用 SE-loss。
使用跨 GPU 同步批量归一化以在更大的有效批量大小下稳定训练。
在 PASCAL-Context、PASCAL VOC 2012 和 ADE20K 上使用标准指标（pixAcc、mIoU）进行评估；同时测试 CIFAR-10 分类性能。

实验结果

研究问题

RQ1显式的全局上下文建模是否能在感受野扩展技术之外提高逐像素语义分割？
RQ2一个轻量级的上下文编码模块是否能在不产生显著计算开销的情况下改进分割？
RQ3SE-loss 如何影响场景级语义和小物体分割的学习？
RQ4在不使用 COCO 预训练的情况下，EncNet 是否与 PASCAL-Context、VOC 2012 和 ADE20K 的最先进方法相比具有竞争力或更优？
RQ5上下文编码的好处能扩展到图像分类（CIFAR-10）的较浅网络吗？

主要发现

在 ResNet-50 基线下，带有上下文编码模块的 EncNet 相对于 FCN 基线取得显著提升（如从 41.0% mIoU 提升到 47.6% mIoU）。
在 ResNet-101 下，EncNet 在 PASCAL-Context 上达到 51.7% mIoU，在 PASCAL VOC 2012 上达到 85.9% mIoU（VOC 情况下为 COCO 预训练）。
EncNet-101 单模型在 ADE20K 测试集上达到 0.5567，超越 COCO-Place Challenge 2017 的冠军。
在编码层中，SE-loss 权重为 0.2、32 个码词提供最佳消融效果，计算量边际增加。
在 CIFAR-10 上，14 层 EncNet 实现 3.96% 的错误率，与更深的模型相竞争，展示了上下文编码的广泛应用。
EncNet 在主要分割基准上提供了最先进的结果，同时保持效率并兼容现有基于 FCN 的框架。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。