Skip to main content
QUICK REVIEW

[論文レビュー] PPMamba: A Pyramid Pooling Local Auxiliary SSM-Based Model for Remote Sensing Image Semantic Segmentation

Yin Hu, Xianping Ma|arXiv (Cornell University)|Sep 10, 2024
Image Retrieval and Classification Techniques被引用数 5
ひとこと要約

PPMambaはピラミッドプーリングとMambaベースの状態空間モデリングを組み合わせ、RS画像分割のための多尺度局所特徴とグローバル依存性を捉え、VaihingenとLoveDA Urbanデータセットで直線的計算量を持つ最先端の結果を達成。

ABSTRACT

Semantic segmentation is a vital task in the field of remote sensing (RS). However, conventional convolutional neural network (CNN) and transformer-based models face limitations in capturing long-range dependencies or are often computationally intensive. Recently, an advanced state space model (SSM), namely Mamba, was introduced, offering linear computational complexity while effectively establishing long-distance dependencies. Despite their advantages, Mamba-based methods encounter challenges in preserving local semantic information. To cope with these challenges, this paper proposes a novel network called Pyramid Pooling Mamba (PPMamba), which integrates CNN and Mamba for RS semantic segmentation tasks. The core structure of PPMamba, the Pyramid Pooling-State Space Model (PP-SSM) block, combines a local auxiliary mechanism with an omnidirectional state space model (OSS) that selectively scans feature maps from eight directions, capturing comprehensive feature information. Additionally, the auxiliary mechanism includes pyramid-shaped convolutional branches designed to extract features at multiple scales. Extensive experiments on two widely-used datasets, ISPRS Vaihingen and LoveDA Urban, demonstrate that PPMamba achieves competitive performance compared to state-of-the-art models.

研究の動機と目的

  • RS分割における長距離依存性モデリングの効率化の必要性を、局所的ディテールを犠牲にせずに動機づける。
  • ピラミッドプーリングと多方向スキャンを通じて局所意味情報を保持するMambaベースのアーキテクチャを提案する。
  • ピラミッド形状の畳み込みと全方向状態空間モデル(OSS)を組み合わせたPP-SSMブロックを紹介する。
  • 標準のRSベンチマークで手法の有効性を実証し、CNN系・トランスフォーマー系・他のMambaベースモデルと比較する。

提案手法

  • 4つの並列畳み込みブランチを1x1, 3x3, 5x5, 7x7のカーネルサイズで統合して多尺度局所特徴を捉える(ピラミッドプーリング)。
  • ブランチ出力を連結してx_aggを形成し、8方向ビューをスキャンしてグローバル依存性を捉えるOSSブロックを通過させる。
  • パッチ埋め込みとパッチ結合を用いたUNet様のエンコーダ-デコーダで解像度を段階的に縮小しチャネルを増やし、スキップ接続を備えた4段階のアップサンプリングデコーダを適用する。
  • OSSブロック: レイヤー正規化、次元調整線形層、深度-wise畳み込み、S6による8方向選択スキャン、入力特徴との残差様融合を行う。
  • 事前学習は使用せず、SGDで学習; VaihingenおよびLoveDA Urbanで主指標としてmIoUとmF1を報告する。

実験結果

リサーチクエスチョン

  • RQ1ピラミッドプーリングを用いた多枝構造が、RS画像の局所およびグローバル特徴を効果的に符号化してセマンティックセグメンテーションに寄与するか。
  • RQ2全方向OSSブロック(OSS)はRS分割における長距離依存性モデリングを改善するか、計算コストは過度にならないか。
  • RQ3多 brancheピラミッドプーリングの各ブランチは多尺度特徴抽出とセグメンテーション性能にどのような影響を与えるか。
  • RQ4標準ベンチマークでPPMambaの性能と効率を、CNN系・トランスフォーマー系・他のMamba系RS分割モデルと比較してどう評価されるか。

主な発見

ModelTypeimpervious surface (F1/IoU)building (F1/IoU)low vegetation (F1/IoU)tree (F1/IoU)car (F1/IoU)mF1mIoU
ABCNetC89.68/90.4593.72/93.9077.93/75.5289.81/91.0773.46/63.1684.9274.57
MANetC90.28/91.7494.28/93.0778.95/79.2689.85/89.7677.58/70.7686.1976.32
CMTFNetC90.69/90.5095.03/96.2078.89/76.1890.13/91.3382.09/74.9587.3778.06
FTUNetFormerT90.78/90.3794.54/94.8876.48/73.5989.15/91.8375.28/66.4985.2575.09
UNetFormerC-T90.37/92.1994.58/93.4478.37/76.5690.19/91.1581.85/75.8787.0777.60
HST_UNetC-T91.27/91.3495.36/95.4378.44/77.2790.04/91.0283.61/79.0786.6278.67
TransUNetC-T91.24/90.3194.82/96.6378.85/74.7190.54/92.7983.77/78.9787.8478.78
RS3MambaM90.87/89.9995.26/95.5978.49/75.7490.20/91.9381.83/74.1087.3378.04
RS-MambaM88.37/87.7392.52/92.0876.31/75.6889.14/90.1472.20/64.2483.7172.77
PPMambaM91.86/91.0195.94/96.5279.04/77.1790.23/92.0884.61/80.0388.3479.60
  • PPMambaはVaihingenでRS-Mambaより高いmIoUおよびmF1を達成し、mIoUで6.83ポイント、mF1で4.63ポイント向上。
  • VaihingenではPPMambaが5つの前景クラス(不透水面、建物、低木本 vegetation、樹木、車両)すべてでクラス別F1/IoUの最高値を達成。
  • LoveDA UrbanではPPMambaが9モデル中で最高のmIoU(46.14)とmF1(61.76)を獲得し、背景・建物・水のクラスでIoU/F1がトップ。
  • PPMambaは建物・樹木・車両の境界描写でRS-Mambaより顕著な改善を示し、定性的ヒートマップで連続的な境界を提供。
  • アブレーション研究では、多枝補助構造とピラミッド形状カーネルがRS-MambaよりmIoUおよびmF1を大幅に向上させる(Vaihingen: mIoU 83.71→88.34; Urban: mIoU 54.47→46.14? 注: 詳細表を参照)。
  • アーキテクチャは線形計算量を維持し、MambaとCNNベースの多尺度プーリングを組み合わせて局所ディテールとグローバル文脈のバランスを取る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。