[論文レビュー] SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
SegFormerは階層的で位置エンコーディングを用いないTransformerエンコーダと、軽量なAll-MLPデコーダを備え、ADE20K、Cityscapes、COCO-Stuffでセマンティックセグメンテーションの効率と精度の最先端を達成します。
We present SegFormer, a simple, efficient yet powerful semantic segmentation framework which unifies Transformers with lightweight multilayer perception (MLP) decoders. SegFormer has two appealing features: 1) SegFormer comprises a novel hierarchically structured Transformer encoder which outputs multiscale features. It does not need positional encoding, thereby avoiding the interpolation of positional codes which leads to decreased performance when the testing resolution differs from training. 2) SegFormer avoids complex decoders. The proposed MLP decoder aggregates information from different layers, and thus combining both local attention and global attention to render powerful representations. We show that this simple and lightweight design is the key to efficient segmentation on Transformers. We scale our approach up to obtain a series of models from SegFormer-B0 to SegFormer-B5, reaching significantly better performance and efficiency than previous counterparts. For example, SegFormer-B4 achieves 50.3% mIoU on ADE20K with 64M parameters, being 5x smaller and 2.2% better than the previous best method. Our best model, SegFormer-B5, achieves 84.0% mIoU on Cityscapes validation set and shows excellent zero-shot robustness on Cityscapes-C. Code will be released at: github.com/NVlabs/SegFormer.
研究の動機と目的
- 入力解像度が変化しても適用可能な、軽量で高精度なセマンティックセグメンテーション枠組みを提案する。
- 位置エンコーディングを用いず、マルチスケール特徴を出力する階層的Transformerエンコーダを開発する。
- 複数レベルの特徴を統合してセグメーションを行う軽量なAll-MLPデコーダを提案する。
- 標準データセットでの効率性(パラメータ、FLOPs、速度)の向上と頑健性を示す。
提案手法
- MiT(Mix Transformer)エンコーダを導入し、1/4、1/8、1/16、1/32解像度で階層的な特徴出力を行う。
- 解像度依存の補間問題を避けるため、エンコーダから位置埋め込みを排除する。
- シーケンス長を縮小する効率的な自己注意機構を適用し、計算量をO(N^2)からO(N^2/R)に削減する。
- 従来のCNN/Transformerデコーダを置換し、単純なMLP層で多段階特徴を統合する軽量なAll-MLPデコーダを採用する。
- 位置情報を固定の位置エンコーディングなしで注入するため、FFNに3x3の深さ方向畳み込みとMLPを混合したMix-FFNを組み込む。
- 精度と効率のバランスを取る MiTモデルファミリー(B0〜B5)を提供する。
実験結果
リサーチクエスチョン
- RQ1階層的で位置エンコーディング不要なTransformerエンコーダが、推論解像度の頑健性を維持しつつ、セグメンテーションに適したマルチスケール特徴を生成できるか。
- RQ2軽量なAll-MLPデコーダは、マルチレベルのTransformer特徴を効果的に統合し、低い計算コストで高いセグメンテーション性能を達成できるか。
- RQ3モデルサイズ(B0–B5)とデコーダのチャネル次元(C)が、標準的なセグメンテーションベンチマークでの精度、FLOPs、レイテンシにどのように影響するか。
- RQ4Mix-FFNはテスト時解像度の変化に対する頑健性の観点から、固定位置エンコーディングの有効な代替となり得るか。
主な発見
- SegFormer-B0は3.8Mパラメータと8.4 GFLOPsで競争力のリアルタイム性能を達成し、各データセットで高いmIoUを実現。
- SegFormer-B5はCityscapes検証で84.0%、ADE20Kで51.8%のmIoUを達成し、SETRなどの以前の手法よりも効率的である。
- ADE20KではSegFormer-B4が64Mパラメータで50.3%のmIoUを達成し、従来手法を上回る。
- SegFormerはCityscapes-Cで高い頑健性を示し、様々な劭汰状況で先行手法を上回る(ガウシアンノイズで相対改善最大588%など)。
- 位置エンコーディングなしのMix-FFNエンコーダは、固定位置エンコーディングよりテスト解像度変更に対して頑健性が高い。
- SegFormerのAll-MLPデコーダはTransformers由来の特徴を活用し、重いモジュールなしでより大きな有効受容野を実現。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。