[論文レビュー] RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer
RTFormer は、GPUに優しい注意機構と異なる解像度間の注意機構を備えたデュアル解像度トランスフォーマーを導入し、Cityscapes、CamVid、ADE20K、COCOStuffで高 FPS を実現する最先端のリアルタイムセマンティックセグメンテーション精度を達成します。
Recently, transformer-based networks have shown impressive results in semantic segmentation. Yet for real-time semantic segmentation, pure CNN-based approaches still dominate in this field, due to the time-consuming computation mechanism of transformer. We propose RTFormer, an efficient dual-resolution transformer for real-time semantic segmenation, which achieves better trade-off between performance and efficiency than CNN-based models. To achieve high inference efficiency on GPU-like devices, our RTFormer leverages GPU-Friendly Attention with linear complexity and discards the multi-head mechanism. Besides, we find that cross-resolution attention is more efficient to gather global context information for high-resolution branch by spreading the high level knowledge learned from low-resolution branch. Extensive experiments on mainstream benchmarks demonstrate the effectiveness of our proposed RTFormer, it achieves state-of-the-art on Cityscapes, CamVid and COCOStuff, and shows promising results on ADE20K. Code is available at PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.
研究の動機と目的
- リアルタイムのセマンティックセグメンテーションをトランスフォーマーベースのネットワークで動機づけ、GPUに優しい注意と効率性の懸念に対処する。
- グローバル文脈モデリングと推論速度のバランスを取るRTFormerブロックとデュアル解像度アーキテクチャを提案する。
- Cityscapes、CamVid、ADE20K、COCOStuff における優れた速度-精度のトレードオフを示す実証結果を示す。
提案手法
- GPU-Friendly Attention (GFA) を用いた低解像度ブランチを外部アテンションから派生させ、グループ化された二重正規化を組み合わせたRTFormerブロックを導入する。
- 高解像度ブランチでは、低解像度ブランチからのグローバル文脈を注入するために Cross-resolution Attention を適用する。
- 情報を低解像度・高解像度ブランチから融合するステップ状レイアウトを使用し、特徴次元の拡張なしの2つの3x3 conv ベースのFFN を適用する。
- 初期畳み込みステムと最後の2段階を RTFormer ブロックと DAPPM ベースのセグメンテーションヘッドを組み合わせて RTFormer を構築する。
- ImageNet で事前学習し、標準的な増強とトレーニングスケジュールでセグメンテーションデータセットに微調整する、という説明に従う。
実験結果
リサーチクエスチョン
- RQ1GPUに優しい注意機構を備えたデュアル解像度トランスフォーマーは、セグメンテーション精度を犠牲にすることなくリアルタイム推論を達成できるか?
- RQ2クロス解像度アテンションは低解像度ブランチから高解像度特徴へ高レベルのグローバルコンテキストを効果的に伝播するか?
- RQ3さまざまな注意機構と FFN 設計がリアルタイムセグメンテーションの速度(FPS)と精度(mIoU)に与える影響は?
- RQ4RTFormer は標準的なリアルタイムベンチマーク(Cityscapes、CamVid)と一般化シーン(ADE20K、COCOStuff)で、CNNベースおよび他のトランスフォーマーベース手法と比べてどうか?
主な発見
| モデル | エンコーダー | #パラメータ | GPU | Cityscapes FPS | Cityscapes mIoU | CamVid FPS | CamVid mIoU |
|---|---|---|---|---|---|---|---|
| RTFormer-Slim (Ours) | - | 4.8M | RTX 2080Ti | 110.0 | 76.3 | 190.7 | 81.4 |
| RTFormer-Base (Ours) | - | 16.8M | RTX 2080Ti | 39.1 | 79.3 | 94.0 | 82.5 |
| ICNet | - | - | TitanX M | 30.3 | 67.7 | 27.8 | 67.1 |
| DFANet A | Xception A | 7.8M | TitanX | 100.0 | - | - | - |
| DFANet B | Xception B | 4.8M | TitanX | 120.0 | - | - | - |
| CAS | - | - | TitanX | 108.0 | 71.6 | 169.0 | 71.2 |
| GAS | - | - | TitanX | 108.4 | 72.4 | 153.1 | 72.8 |
| DDRNet-23-Slim | - | 5.6M | RTX 2080Ti | - | - | - | - |
| DDRNet-23 | - | 20.1M | RTX 2080Ti | - | - | - | - |
- RTFormer-Slim は Cityscapes で 110.0 FPS、mIoU 76.3% を達成(リアルタイムバランス)。
- RTFormer-Base は Cityscapes で 39.1 FPS、mIoU 79.3% を達成し、当時のリアルタイム手法の中で最先端を確立。
- CamVid では RTFormer-Slim が 190.7 FPS、mIoU 81.4%、パラメータ 4.8M。
- ADE20K では RTFormer-Base が 71.4 FPS、mIoU 42.1% 。
- COCOStuff では RTFormer-Base が 143.3 FPS、mIoU 35.3% 。
- アブレーションにより GPU-Friendly Attention がマルチヘッド外部・自己注意よりも速度-精度のトレードオフで優れており、クロス解像度アテンションは小さな FPS低下でさらなる利得を提供。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。