QUICK REVIEW

[論文レビュー] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

Enze Xie, Wenhai Wang|arXiv (Cornell University)|May 31, 2021

Advanced Image and Video Retrieval Techniques被引用数 3,230

ひとこと要約

SegFormerは階層的で位置情報エンコーディングを用いないTransformerエンコーダと軽量なAll-MLPデコーダを組み合わせ、ADE20K、Cityscapes、COCO-Stuff全体で高い精度と高い効率を実現します。

ABSTRACT

We present SegFormer, a simple, efficient yet powerful semantic segmentation framework which unifies Transformers with lightweight multilayer perception (MLP) decoders. SegFormer has two appealing features: 1) SegFormer comprises a novel hierarchically structured Transformer encoder which outputs multiscale features. It does not need positional encoding, thereby avoiding the interpolation of positional codes which leads to decreased performance when the testing resolution differs from training. 2) SegFormer avoids complex decoders. The proposed MLP decoder aggregates information from different layers, and thus combining both local attention and global attention to render powerful representations. We show that this simple and lightweight design is the key to efficient segmentation on Transformers. We scale our approach up to obtain a series of models from SegFormer-B0 to SegFormer-B5, reaching significantly better performance and efficiency than previous counterparts. For example, SegFormer-B4 achieves 50.3% mIoU on ADE20K with 64M parameters, being 5x smaller and 2.2% better than the previous best method. Our best model, SegFormer-B5, achieves 84.0% mIoU on Cityscapes validation set and shows excellent zero-shot robustness on Cityscapes-C. Code will be released at: github.com/NVlabs/SegFormer.

研究の動機と目的

Transformerエンコーダと軽量デコーダを組み合わせて効率と頑健性を追求するセマンティックセグメンテーションフレームワークの動機付け。
dense predictionに適したマルチスケール機能を出力する階層的で位置情報エンコーディングを用いないTransformerエンコーダの開発。
大規模なバックボーンや複雑なモジュールを必要とせず、マルチレベル機能を統合するコンパクトなAll-MLPデコーダの設計。
スケーラブルなMiTエンコーダを用いてADE20K、Cityscapes、COCO-Stuffで最先端の性能と頑健性を示す。

提案手法

MiT (Mix Transformer) エンコーダを1/4、1/8、1/16、1/32解像度の階層的機能マップとして導入。
空間的局所性を失うことなくマルチスケール機能を構築するためにオーバーラップするパッチマージを採用。
計算量をO(N^2)からO(N^2/R)へ低減するためにシーケンス削減付きの効率的な自己注意を採用。
固定位置埋め込みを使わず、3x3の深さ方向畳み込みとMLPを組み合わせたMix-FFNで位置情報を注入する。
マルチレベル機能を簡易な線形層とMLPでアップサンプリング・融合してセグメンテーションマスクを生成する軽量なAll-MLPデコーダを使用。

実験結果

リサーチクエスチョン

RQ1階層的で位置情報エンコーディングを用いないTransformerエンコーダは、セマンティックセグメンテーションに適した高分解能・マルチスケール機能を生み出せるか。
RQ2軽量なAll-MLPデコーダは、トランスフォーマー機能をマルチレベルで統合して、ピクセル単位の予測を正確に行えるか。
RQ3SegFormerの派生は標準のセグメンテーションベンチマークで精度・パラメータ・FLOPs・速度の観点でどのようにスケールするか。
RQ4提案されたMix-FFNとオーバーラップパッチマージは、テスト解像度の変更や異なるデータセットに対して頑健か。

主な発見

SegFormer-B0はADE20Kでリアルタイム性能を実現する3.8Mパラメータと8.4G FLOPsで、複数の指標でリアルタイム対数値を超える。
SegFormer-B5はCityscapesの検証セットで84.0%のmIoUを達成し、従来のベスト手法よりもはるかに小さく高速である。
ADE20KではSegFormer-B4が64Mパラメータで50.3%のmIoUを達成し、前のベストを上回りながら約5分の1の規模となる。
SegFormerはSETRよりはるかに小さなモデルでADE20Kの最先端（51.8% mIoU）を達成し、Cityscapesでは効率的なネットワークで83.8-84.0%を達成。
SegFormerは自然な劣化に対する頑健性（Cityscapes-C）を示し、いくつかの劣化カテゴリで従来法を大きく上回る。
COCO-Stuff全体ではSegFormer-B5が46.7%のmIoUを達成し、84.7MパラメータでSETRなどの比較法を約0.9%上回りつつ、はるかに小さい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。