[论文解读] Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation
本文提出用于语义分割的对象-上下文表示(OCR),按学习得到的对象区域聚合像素特征,并通过类似 Transformer 的编解码框架进行整合,以提升在各基准数据集上的分割准确性。
In this paper, we address the semantic segmentation problem with a focus on the context aggregation strategy. Our motivation is that the label of a pixel is the category of the object that the pixel belongs to. We present a simple yet effective approach, object-contextual representations, characterizing a pixel by exploiting the representation of the corresponding object class. First, we learn object regions under the supervision of ground-truth segmentation. Second, we compute the object region representation by aggregating the representations of the pixels lying in the object region. Last, % the representation similarity we compute the relation between each pixel and each object region and augment the representation of each pixel with the object-contextual representation which is a weighted aggregation of all the object region representations according to their relations with the pixel. We empirically demonstrate that the proposed approach achieves competitive performance on various challenging semantic segmentation benchmarks: Cityscapes, ADE20K, LIP, PASCAL-Context, and COCO-Stuff. Cityscapes, ADE20K, LIP, PASCAL-Context, and COCO-Stuff. Our submission "HRNet + OCR + SegFix" achieves 1-st place on the Cityscapes leaderboard by the time of submission. Code is available at: https://git.io/openseg and https://git.io/HRNet.OCR. We rephrase the object-contextual representation scheme using the Transformer encoder-decoder framework. The details are presented in~Section3.3.
研究动机与目标
- 通过将标签视为对应的对象类别来激发像素标注的上下文聚合。
- 提出学习软对象区域及其区域表示的对象-上下文表示。
- 通过像素与对象区域之间的关系,用带权重的对象区域表示增强像素表示。
- 在 Cityscapes、ADE20K、LIP、PASCAL-Context、COCO-Stuff 及 COCO panoptic 任务上展示出色的性能。
提出的方法
- 通过从骨干特征学习得到的粗糙软分割,将对应于每个类别的软对象区域 M1,...,MK 形成。
- 通过将像素特征 x_i 按归一化的区域成员资格 tilde{m}_{ki} 加权聚合,计算对象区域表示 f_k。
- 通过对双线性函数 kappa(x_i, f_k) 进行 softmax,计算像素-对象区域关系 w_{ik},从而获得对象-上下文表示 y_i。
- 通过一个小型神经变换,将原始像素特征 x_i 与对象-上下文表示 y_i 融合,形成增强的像素特征 z_i。
- 在 Segmentation Transformer 中重新定义 OCR:在解码器交叉注意力中使用 K 类别查询作为对象区域选择器以生成 M_k 和 f_k,编码器的交叉注意力将对象区域表示整合到逐像素预测中。
- 骨干网选择包括膨胀卷积的 ResNet-101 或 HRNet-W48,OCR 模块端到端训练,使用对像素级交叉熵损失进行对象区域监督和最终分割。
实验结果
研究问题
- RQ1通过明确建模像素与对象区域之间的关系,对象-上下文表示能否提升语义分割?
- RQ2软对象区域及其区域表示如何影响逐像素分类准确性?
- RQ3类似 Transformer 的跨注意力机制是否有效实现了分割任务中的 OCR 概念?
- RQ4与多尺度和关系上下文方法相比,OCR 的效率与准确性权衡是什么?
主要发现
- OCR 在 Cityscapes、ADE20K、LIP、PASCAL-Context、COCO-Stuff 的多尺度(PPM/ASPP)和关系上下文基线之上有所提升。
- 对象区域监督和像素–区域关系估计都对性能提升有贡献。
- 该方法在若干基准上达到有竞争力或最先进的结果,并在内存、FLOPs、运行时间等方面表现出与若干关系及多尺度上下文方法相比的有利效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。