[論文レビュー] PPMamba: A Pyramid Pooling Local Auxiliary SSM-Based Model for Remote Sensing Image Semantic Segmentation
PPMambaはピラミッドプーリングとMambaベースの状態空間モデリングを組み合わせ、RS画像分割のための多尺度局所特徴とグローバル依存性を捉え、VaihingenとLoveDA Urbanデータセットで直線的計算量を持つ最先端の結果を達成。
Semantic segmentation is a vital task in the field of remote sensing (RS). However, conventional convolutional neural network (CNN) and transformer-based models face limitations in capturing long-range dependencies or are often computationally intensive. Recently, an advanced state space model (SSM), namely Mamba, was introduced, offering linear computational complexity while effectively establishing long-distance dependencies. Despite their advantages, Mamba-based methods encounter challenges in preserving local semantic information. To cope with these challenges, this paper proposes a novel network called Pyramid Pooling Mamba (PPMamba), which integrates CNN and Mamba for RS semantic segmentation tasks. The core structure of PPMamba, the Pyramid Pooling-State Space Model (PP-SSM) block, combines a local auxiliary mechanism with an omnidirectional state space model (OSS) that selectively scans feature maps from eight directions, capturing comprehensive feature information. Additionally, the auxiliary mechanism includes pyramid-shaped convolutional branches designed to extract features at multiple scales. Extensive experiments on two widely-used datasets, ISPRS Vaihingen and LoveDA Urban, demonstrate that PPMamba achieves competitive performance compared to state-of-the-art models.
研究の動機と目的
- RS分割における長距離依存性モデリングの効率化の必要性を、局所的ディテールを犠牲にせずに動機づける。
- ピラミッドプーリングと多方向スキャンを通じて局所意味情報を保持するMambaベースのアーキテクチャを提案する。
- ピラミッド形状の畳み込みと全方向状態空間モデル(OSS)を組み合わせたPP-SSMブロックを紹介する。
- 標準のRSベンチマークで手法の有効性を実証し、CNN系・トランスフォーマー系・他のMambaベースモデルと比較する。
提案手法
- 4つの並列畳み込みブランチを1x1, 3x3, 5x5, 7x7のカーネルサイズで統合して多尺度局所特徴を捉える(ピラミッドプーリング)。
- ブランチ出力を連結してx_aggを形成し、8方向ビューをスキャンしてグローバル依存性を捉えるOSSブロックを通過させる。
- パッチ埋め込みとパッチ結合を用いたUNet様のエンコーダ-デコーダで解像度を段階的に縮小しチャネルを増やし、スキップ接続を備えた4段階のアップサンプリングデコーダを適用する。
- OSSブロック: レイヤー正規化、次元調整線形層、深度-wise畳み込み、S6による8方向選択スキャン、入力特徴との残差様融合を行う。
- 事前学習は使用せず、SGDで学習; VaihingenおよびLoveDA Urbanで主指標としてmIoUとmF1を報告する。
実験結果
リサーチクエスチョン
- RQ1ピラミッドプーリングを用いた多枝構造が、RS画像の局所およびグローバル特徴を効果的に符号化してセマンティックセグメンテーションに寄与するか。
- RQ2全方向OSSブロック(OSS)はRS分割における長距離依存性モデリングを改善するか、計算コストは過度にならないか。
- RQ3多 brancheピラミッドプーリングの各ブランチは多尺度特徴抽出とセグメンテーション性能にどのような影響を与えるか。
- RQ4標準ベンチマークでPPMambaの性能と効率を、CNN系・トランスフォーマー系・他のMamba系RS分割モデルと比較してどう評価されるか。
主な発見
| Model | Type | impervious surface (F1/IoU) | building (F1/IoU) | low vegetation (F1/IoU) | tree (F1/IoU) | car (F1/IoU) | mF1 | mIoU |
|---|---|---|---|---|---|---|---|---|
| ABCNet | C | 89.68/90.45 | 93.72/93.90 | 77.93/75.52 | 89.81/91.07 | 73.46/63.16 | 84.92 | 74.57 |
| MANet | C | 90.28/91.74 | 94.28/93.07 | 78.95/79.26 | 89.85/89.76 | 77.58/70.76 | 86.19 | 76.32 |
| CMTFNet | C | 90.69/90.50 | 95.03/96.20 | 78.89/76.18 | 90.13/91.33 | 82.09/74.95 | 87.37 | 78.06 |
| FTUNetFormer | T | 90.78/90.37 | 94.54/94.88 | 76.48/73.59 | 89.15/91.83 | 75.28/66.49 | 85.25 | 75.09 |
| UNetFormer | C-T | 90.37/92.19 | 94.58/93.44 | 78.37/76.56 | 90.19/91.15 | 81.85/75.87 | 87.07 | 77.60 |
| HST_UNet | C-T | 91.27/91.34 | 95.36/95.43 | 78.44/77.27 | 90.04/91.02 | 83.61/79.07 | 86.62 | 78.67 |
| TransUNet | C-T | 91.24/90.31 | 94.82/96.63 | 78.85/74.71 | 90.54/92.79 | 83.77/78.97 | 87.84 | 78.78 |
| RS3Mamba | M | 90.87/89.99 | 95.26/95.59 | 78.49/75.74 | 90.20/91.93 | 81.83/74.10 | 87.33 | 78.04 |
| RS-Mamba | M | 88.37/87.73 | 92.52/92.08 | 76.31/75.68 | 89.14/90.14 | 72.20/64.24 | 83.71 | 72.77 |
| PPMamba | M | 91.86/91.01 | 95.94/96.52 | 79.04/77.17 | 90.23/92.08 | 84.61/80.03 | 88.34 | 79.60 |
- PPMambaはVaihingenでRS-Mambaより高いmIoUおよびmF1を達成し、mIoUで6.83ポイント、mF1で4.63ポイント向上。
- VaihingenではPPMambaが5つの前景クラス(不透水面、建物、低木本 vegetation、樹木、車両)すべてでクラス別F1/IoUの最高値を達成。
- LoveDA UrbanではPPMambaが9モデル中で最高のmIoU(46.14)とmF1(61.76)を獲得し、背景・建物・水のクラスでIoU/F1がトップ。
- PPMambaは建物・樹木・車両の境界描写でRS-Mambaより顕著な改善を示し、定性的ヒートマップで連続的な境界を提供。
- アブレーション研究では、多枝補助構造とピラミッド形状カーネルがRS-MambaよりmIoUおよびmF1を大幅に向上させる(Vaihingen: mIoU 83.71→88.34; Urban: mIoU 54.47→46.14? 注: 詳細表を参照)。
- アーキテクチャは線形計算量を維持し、MambaとCNNベースの多尺度プーリングを組み合わせて局所ディテールとグローバル文脈のバランスを取る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。