[論文レビュー] RS3Mamba: Visual State Space Model for Remote Sensing Images Semantic Segmentation
RS3Mambaは、視覚状態空間(VSS)補助エンコーダをResNet主エンコーダと融合するデュアルブランチアーキテクチャを導入し、協調完結モジュールを用いてリモートセンシングのセマンティックセグメンテーションを線形計算量で改善する。
Semantic segmentation of remote sensing images is a fundamental task in geoscience research. However, there are some significant shortcomings for the widely used convolutional neural networks (CNNs) and Transformers. The former is limited by its insufficient long-range modeling capabilities, while the latter is hampered by its computational complexity. Recently, a novel visual state space (VSS) model represented by Mamba has emerged, capable of modeling long-range relationships with linear computability. In this work, we propose a novel dual-branch network named remote sensing images semantic segmentation Mamba (RS3Mamba) to incorporate this innovative technology into remote sensing tasks. Specifically, RS3Mamba utilizes VSS blocks to construct an auxiliary branch, providing additional global information to convolution-based main branch. Moreover, considering the distinct characteristics of the two branches, we introduce a collaborative completion module (CCM) to enhance and fuse features from the dual-encoder. Experimental results on two widely used datasets, ISPRS Vaihingen and LoveDA Urban, demonstrate the effectiveness and potential of the proposed RS3Mamba. To the best of our knowledge, this is the first vision Mamba specifically designed for remote sensing images semantic segmentation. The source code will be made available at https://github.com/sstary/SSRS.
研究の動機と目的
- CNNの局所受容野とTransformerの高い計算量に対処することで、リモートセンシング画像のセマンティックセグメンテーションの改善を促進する。
- グローバルコンテキストを提供するVSSベースの補助エンコーダを備えたデュアルブランチアーキテクチャを導入する。
- クロスブランチ特徴を効果的に融合する協調完了モジュール(CCM)を開発する。
- ISPRS VaihingenおよびLoveDA Urbanデータセットで比較分析を通じて有効性を示す。
- リモートセンシングタスクへのMambaベースのコンポーネントの組み込みの実用性と複雑さに関する洞察を提供する。
提案手法
- SS2DとS6を用いた補助VSSベースエンコーダで、線形計算量で長距離依存を捉える。
- ローカル特徴抽出を強化するResNet18を用いたメインエンコーダ。
- 協調完了モジュール(CCM)は、グローバルブランチ(自己注意)とローカルブランチ(畳み込み)を介してクロスブランチ特徴を融合する。
- デコーダはピクセル単位の予測を復元するためにUNetformer風のスキップ接続に従う。
- 訓練目的は semantic クラス全体に対するクロスエントロピー損失。
実験結果
リサーチクエスチョン
- RQ1Visual State Space (VSS)ブロックを活用したデュアルブランチアーキテクチャは、CNN単独またはTransformer単独モデルを上回るリモートセンシング画像のセマンティックセグメンテーションを改善できるか?
- RQ2協調完了モジュールは、グローバルなVSS由来特徴と局所的なCNN特徴を効果的に融合してセグメンテーション品質を向上させるか?
- RQ3標準的なリモートセンシングデータセット(ISPRS VaihingenとLoveDA Urban)で、最先端手法と比較した性能向上はどの程度か?
- RQ4RS3Mambaの計算的トレードオフ(FLOPs、パラメータ、メモリ)は、Transformer系およびCNN系の対応モデルと比べてどうか?
- RQ5これはリモートセンシングセマンティックセグメンテーション向けに特化した最初の vision Mambaモデルですか、またソースコードは公開されていますか?
主な発見
| Method | Backbone | 不透水表面 (F1/IoU) | 建物 (F1/IoU) | 低植生 (F1/IoU) | 樹木 (F1/IoU) | 車 (F1/IoU) | mF1 | mIoU |
|---|---|---|---|---|---|---|---|---|
| ABCNet | ResNet-18 | 89.78/81.45 | 94.30/89.21 | 78.49/64.59 | 90.08/81.95 | 74.05/58.80 | 85.34 | 75.20 |
| TransUNet | R50-ViT-B | 90.77/83.10 | 94.32/89.25 | 79.02/65.32 | 90.53/82.70 | 82.66/70.45 | 87.46 | 78.16 |
| UNetformer | ResNet-18 | 92.33/85.76 | 96.25/92.78 | 80.47/67.33 | 90.85/83.22 | 89.35/80.75 | 89.85 | 81.97 |
| CMTFNet | ResNet-50 | 92.53/86.09 | 96.95 / 94.09 | 79.98/66.64 | 90.22/82.19 | 89.87/81.60 | 89.91 | 82.12 |
| RS3Mamba | R18-Mamba-T | 92.83 / 86.62 | 96.82/93.83 | 80.84 / 67.84 | 91.10 / 83.66 | 90.09 / 81.97 | 90.34 | 82.78 |
- RS3MambaはISPRS VaihingenでmF1 90.34およびmIoU 82.78を達成し、UNetformerベースラインを上回る。
- Vaihingenでは、RS3Mambaがベースラインに対して不透水面IoUを0.53ポイント、低植生 IoUを0.51ポイント改善。
- LoveDA Urbanでは、RS3MambaはmF1 66.86とmIoU 50.93を達成し、農業クラス(IoU +8.33%)など他のクラスで顕著な改善を示す。
- アブレーションにより、CCMを備えたデュアルブランチ設計が、単一ブランチや単純な融合と比べて最良の性能を提供することが示される(mF1 90.34, mIoU 82.78)。
- TransUNetベースのTransformerと比較して、RS3MambaはFLOPs 31.65G vs 64.55G for TransUNetの低い計算量とパラメータで競争力のある性能を発揮する。
- アブレーションは、CCMがクロスブランチ融合に有効であり、単純な加算やCCMなしを上回ることを確認した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。