[論文レビュー] Fully Transformer Networks for Semantic Image Segmentation
この論文は、Pyramid Group Transformer encoder (PGT) と Feature Pyramid Transformer decoder (FPT) を用いた Fully Transformer Networks (FTN) により、CNNを使わずに最先端のセマンティックセグメンテーションを実現し、PASCAL Context、ADE20K、COCO-Stuff、CelebAMask-HQ での性能を達成します。
Transformers have shown impressive performance in various natural language processing and computer vision tasks, due to the capability of modeling long-range dependencies. Recent progress has demonstrated that combining such Transformers with CNN-based semantic image segmentation models is very promising. However, it is not well studied yet on how well a pure Transformer based approach can achieve for image segmentation. In this work, we explore a novel framework for semantic image segmentation, which is encoder-decoder based Fully Transformer Networks (FTN). Specifically, we first propose a Pyramid Group Transformer (PGT) as the encoder for progressively learning hierarchical features, meanwhile reducing the computation complexity of the standard Visual Transformer (ViT). Then, we propose a Feature Pyramid Transformer (FPT) to fuse semantic-level and spatial-level information from multiple levels of the PGT encoder for semantic image segmentation. Surprisingly, this simple baseline can achieve better results on multiple challenging semantic segmentation and face parsing benchmarks, including PASCAL Context, ADE20K, COCOStuff, and CelebAMask-HQ. The source code will be released on https://github.com/BR-IDL/PaddleViT.
研究の動機と目的
- CNNを含まないピクセルレベルのセマンティックセグメンテーションのための純粋なトランスフォーマーアーキテクチャの探求を促す。
- 制御可能な受容野を持つマルチスケール表現を学習する階層型トランスフォーマーエンコーダ(PGT)を導入する。
- レベル間でセマンティック情報と空間情報を統合するトランスフォーマーベースのデコーダ(FPT)を提案する。
- 標準のセグメンテーションベンチマークで最先端の性能を示す。
提案手法
- Patch変換とPyramid Group Multi-Head Self-Attention(PG-MSA)を用いて階層的特徴を学習する4段階のエンコーダとしてPyramid Group Transformer(PGT)を定義する。
- 段階を経て徐々に拡大する非オーバーラップのグループ内で注意機構を整理することにより受容野を制御する。
- トポダウン型のマルチレベル統合デコーダとしてFeature Pyramid Transformer(FPT)を導入し、側部接続とトランスフォーマーブロックを用いて高解像度の予測を組み立てる。
- 完全なトランスフォーマー ベースのエンコーダ-デコーダフレームワークでFTNを訓練し、PASCAL Context、ADE20K、COCO-Stuff、CelebAMask-HQで評価する。
- ImageNet-1KでPGTを事前訓練し、セグメンテーションベンチマークで微調整する。標準的なデータ拡張と訓練スケジュールを適用する。
実験結果
リサーチクエスチョン
- RQ1完全なトランスフォーマーベースのエンコーダ-デコーダフレームワークは、標準のベンチマークにおいてCNNをベースとしたセグメンテーションモデルと同等以上を達成できるか?
- RQ2ピラミッド/グループ化された自己注意を備えたエンコーダとトランスフォーマーベースのデコーダは、ピクセルレベルの予測に対して効果的にマルチスケールの文脈を捉えるか?
- RQ3エンコーダ/デコーダの選択とマルチスケール融合戦略がセグメンテーション精度に与える影響は何か?
- RQ4FTNは精度と効率の点で、最先端のトランスフォーマーおよびCNNベースのセグメンテーション手法とどう比較されるか?
主な発見
| 手法 | バックボーン | mIoU | PASCAL Context | ADE20K | COCO-Stuff |
|---|---|---|---|---|---|
| FTN-T (ours) | PGT-T | 51.15 | 47.12 | 41.57 | - |
| FTN-S (ours) | PGT-S | 53.09 | 48.68 | 43.63 | - |
| FTN-B (ours) | PGT-B | 54.93 | 50.88 | 44.82 | - |
| FTN-L (ours) | PGT-L | 56.05 | 51.36 | 45.89 | - |
| UperNet(Swin-B) | Swin-B | 52.57 | 49.72 | 42.20 | - |
| SETR-MLA ViT-L/16 | ViT-L/16 | 55.83 | 50.28 | - | - |
- FTN-L は、PASCAL Context で 56.05%、ADE20K で 51.36%、COCO-Stuff で 45.89% の mIoU を達成し、主要ベンチマークで最先端または競争力のある成績を示す。
- FTN-T、FTN-S、FTN-B、FTN-L は、同程度の計算量の下で比較対象のバックボーン(PVT、Swin、ViT)を上回り、いくつかの設定でFTN-LはViT-L/16を上回る。
- Pyramid Group Transformer(PGT)は階層的特徴を学習し、グローバルViTと比べて計算量/メモリを削減し、密な予測を効果的に実現する。
- Feature Pyramid Transformer(FPT)は複数レベルのセマンティック情報と空間情報を効果的に統合し、他のデコーダより一貫した利得を生む。
- FTN系はCelebAMask-HQ の顔パーシングでも高い性能を示し、FTN-L は Mean F1 スコア 87.4 を達成し、いくつかのベースラインを上回る。
- ImageNet-1K での事前訓練は競争力のある結果に十分であり、より大きなバックボーンとマルチスケール推論を用いると改善が見られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。