[论文解读] SeMask: Semantically Masked Transformers for Semantic Segmentation
SeMask 引入了一个语义先验的 SeMask 块,将语义上下文注入到预训练的分层视觉变换器中,提升语义分割性能,并在 ADE20K 上实现新的最先进水平(58.25% mIoU),在 Cityscapes 上达到 >3% 增益。
Finetuning a pretrained backbone in the encoder part of an image transformer network has been the traditional approach for the semantic segmentation task. However, such an approach leaves out the semantic context that an image provides during the encoding stage. This paper argues that incorporating semantic information of the image into pretrained hierarchical transformer-based backbones while finetuning improves the performance considerably. To achieve this, we propose SeMask, a simple and effective framework that incorporates semantic information into the encoder with the help of a semantic attention operation. In addition, we use a lightweight semantic decoder during training to provide supervision to the intermediate semantic prior maps at every stage. Our experiments demonstrate that incorporating semantic priors enhances the performance of the established hierarchical encoders with a slight increase in the number of FLOPs. We provide empirical proof by integrating SeMask into Swin Transformer and Mix Transformer backbones as our encoder paired with different decoders. Our framework achieves a new state-of-the-art of 58.25% mIoU on the ADE20K dataset and improvements of over 3% in the mIoU metric on the Cityscapes dataset. The code and checkpoints are publicly available at https://github.com/Picsart-AI-Research/SeMask-Segmentation .
研究动机与目标
- 通过在编码过程中引入图像语义上下文来激励对预训练的 transformer 编码器进行语义分割的微调。
提出的方法
- 在分层骨干网络(Swin、Mix Transformer)中的每个 Transformer 层之后插入一个语义层,以生成语义先验和语义屏蔽特征。
- 使用一个轻量级的语义解码器来聚合逐阶段的语义先验,并使用逐像素交叉熵进行监督。
- 将带有语义屏蔽的编码器特征与 Semantic-FPN 解码器结合,以获得最终的逐像素预测。
- 使用双重损失进行训练:主解码器上的逐像素交叉熵损失,以及对语义先验映射的次要损失。
- 在 SeMask 块中使用一个可学习标量 lambda 来稳定特征更新。
实验结果
研究问题
- RQ1在不进行大规模架构改动的情况下,将语义先验注入到预训练的 transformer 编码器是否能提升语义分割性能?
- RQ2SeMask 如何与不同的分层骨干(Swin、Mix Transformer)和解码器交互以影响精度?
- RQ3在多个编码器阶段进行语义监督对分割质量的影响是什么?
主要发现
- 在 ADE20K 上以 SeMask-L Swin 骨干和 Mask2Former MSFaPN 解码器(640×640 训练)实现了 58.25% mIoU 的最新状态,达到最先进水平。
- 相比强基线,在 Cityscapes 上在 Swin 与 Mix Transformer 骨干上获得超过 3% 的 mIoU 增益。
- 在使用 SeMask 与先进解码器时,在 ADE20K 上展示了单尺度和多尺度的增益(分别为 57.00% 和 58.25%)。
- 表明 SeMask 在 Swin-T、Swin-S、Swin-B、Swin-L 变体以及甚至在 Mix Transformer 骨干上均能持续提升性能。
- 表明 SeMask 方法对骨干网络是无关的,并且在多个编码器阶段受益于轻量级的语义监督。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。