QUICK REVIEW

[论文解读] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

Enze Xie, Wenhai Wang|arXiv (Cornell University)|May 31, 2021

Advanced Image and Video Retrieval Techniques被引用 3,230

一句话总结

SegFormer 提供一个分层的、无位置编码的 Transformer 编码器，外加一个轻量级的 All-MLP 解码器，在 ADE20K、Cityscapes 和 COCO-Stuff 上实现高效且高精度的表现。

ABSTRACT

We present SegFormer, a simple, efficient yet powerful semantic segmentation framework which unifies Transformers with lightweight multilayer perception (MLP) decoders. SegFormer has two appealing features: 1) SegFormer comprises a novel hierarchically structured Transformer encoder which outputs multiscale features. It does not need positional encoding, thereby avoiding the interpolation of positional codes which leads to decreased performance when the testing resolution differs from training. 2) SegFormer avoids complex decoders. The proposed MLP decoder aggregates information from different layers, and thus combining both local attention and global attention to render powerful representations. We show that this simple and lightweight design is the key to efficient segmentation on Transformers. We scale our approach up to obtain a series of models from SegFormer-B0 to SegFormer-B5, reaching significantly better performance and efficiency than previous counterparts. For example, SegFormer-B4 achieves 50.3% mIoU on ADE20K with 64M parameters, being 5x smaller and 2.2% better than the previous best method. Our best model, SegFormer-B5, achieves 84.0% mIoU on Cityscapes validation set and shows excellent zero-shot robustness on Cityscapes-C. Code will be released at: github.com/NVlabs/SegFormer.

研究动机与目标

提出一个将 Transformer 编码器与轻量级解码器结合以实现效率与鲁棒性的语义分割框架。
开发一个分层、无位置编码的 Transformer 编码器，输出适用于密集预测的多尺度特征。
设计一个紧凑的 All-MLP 解码器，用于融合多级特征，而无需重 backbone 或复杂模块。
利用可扩展的 MiT 编码器，在 ADE20K、Cityscapes 和 COCO-Stuff 上展示最先进的性能和鲁棒性。

提出的方法

引入 MiT（Mix Transformer）编码器，在 1/4、1/8、1/16、1/32 分辨率具备分层特征映射。
使用重叠的 patch 合并来构建多尺度特征，同时不丢失空间局部性。
采用带序列简化的高效自注意力，将复杂度从 O(N^2) 降至 O(N^2/R)。
用 Mix-FFN 取代标准的 ViT 风格 FFN，结合一个 3x3 的深度卷积和一个 MLP，在不使用固定位置嵌入的情况下注入位置信息。
使用一个轻量级的 All-MLP 解码器，通过简单的 Linear 层和 MLP 上采样并融合多级特征，生成分割掩码。

实验结果

研究问题

RQ1一个分层、无位置编码的 Transformer 编码器是否能产出适用于语义分割的高分辨率、多尺度特征？
RQ2一个轻量级的 All-MLP 解码器是否足以融合多级 Transformer 特征，从而实现准确的逐像素预测？
RQ3SegFormer 变体在标准分割基准上的准确性、参数、FLOPs 和速度如何扩展？
RQ4所提出的 Mix-FFN 和重叠 patch 合并对测试分辨率变化和不同数据集是否鲁棒？

主要发现

SegFormer-B0 在 ADE20K 上以 3.8M 参数和 8.4G FLOPs 实现强实时性能，在多项指标上超越同类实时方法。
SegFormer-B5 在 Cityscapes 验证集达到 84.0% mIoU，操作显著比此前最佳方法更小更快。
在 ADE20K 上，SegFormer-B4 以 64M 参数实现 50.3% mIoU，超越之前的最佳，同时约小 5 倍。
SegFormer 在 ADE20K 上以比 SETR 更小的模型达到新的最先进水平（51.8% mIoU），并在 Cityscapes 上实现 83.8-84.0% 的性能，且网络高效。
SegFormer 对自然损坏（Cityscapes-C）表现出强鲁棒性，在若干损坏类别上显著优于前人方法。
在 COCO-Stuff 上，SegFormer-B5 达到 46.7% mIoU，使用 84.7M 参数，较可比方法如 SETR 提高约 0.9%，同时规模显著更小。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。