QUICK REVIEW

[論文レビュー] PPMamba: A Pyramid Pooling Local Auxiliary SSM-Based Model for Remote Sensing Image Semantic Segmentation

Yin Hu, Xianping Ma|arXiv (Cornell University)|Sep 10, 2024

Image Retrieval and Classification Techniques被引用数 5

ひとこと要約

PPMambaはピラミッドプーリングとMambaベースの状態空間モデリングを組み合わせ、RS画像分割のための多尺度局所特徴とグローバル依存性を捉え、VaihingenとLoveDA Urbanデータセットで直線的計算量を持つ最先端の結果を達成。

ABSTRACT

Semantic segmentation is a vital task in the field of remote sensing (RS). However, conventional convolutional neural network (CNN) and transformer-based models face limitations in capturing long-range dependencies or are often computationally intensive. Recently, an advanced state space model (SSM), namely Mamba, was introduced, offering linear computational complexity while effectively establishing long-distance dependencies. Despite their advantages, Mamba-based methods encounter challenges in preserving local semantic information. To cope with these challenges, this paper proposes a novel network called Pyramid Pooling Mamba (PPMamba), which integrates CNN and Mamba for RS semantic segmentation tasks. The core structure of PPMamba, the Pyramid Pooling-State Space Model (PP-SSM) block, combines a local auxiliary mechanism with an omnidirectional state space model (OSS) that selectively scans feature maps from eight directions, capturing comprehensive feature information. Additionally, the auxiliary mechanism includes pyramid-shaped convolutional branches designed to extract features at multiple scales. Extensive experiments on two widely-used datasets, ISPRS Vaihingen and LoveDA Urban, demonstrate that PPMamba achieves competitive performance compared to state-of-the-art models.

研究の動機と目的

RS分割における長距離依存性モデリングの効率化の必要性を、局所的ディテールを犠牲にせずに動機づける。
ピラミッドプーリングと多方向スキャンを通じて局所意味情報を保持するMambaベースのアーキテクチャを提案する。
ピラミッド形状の畳み込みと全方向状態空間モデル（OSS）を組み合わせたPP-SSMブロックを紹介する。
標準のRSベンチマークで手法の有効性を実証し、CNN系・トランスフォーマー系・他のMambaベースモデルと比較する。

提案手法

4つの並列畳み込みブランチを1x1, 3x3, 5x5, 7x7のカーネルサイズで統合して多尺度局所特徴を捉える（ピラミッドプーリング）。
ブランチ出力を連結してx_aggを形成し、8方向ビューをスキャンしてグローバル依存性を捉えるOSSブロックを通過させる。
パッチ埋め込みとパッチ結合を用いたUNet様のエンコーダ-デコーダで解像度を段階的に縮小しチャネルを増やし、スキップ接続を備えた4段階のアップサンプリングデコーダを適用する。
OSSブロック: レイヤー正規化、次元調整線形層、深度-wise畳み込み、S6による8方向選択スキャン、入力特徴との残差様融合を行う。
事前学習は使用せず、SGDで学習; VaihingenおよびLoveDA Urbanで主指標としてmIoUとmF1を報告する。

実験結果

リサーチクエスチョン

RQ1ピラミッドプーリングを用いた多枝構造が、RS画像の局所およびグローバル特徴を効果的に符号化してセマンティックセグメンテーションに寄与するか。
RQ2全方向OSSブロック（OSS）はRS分割における長距離依存性モデリングを改善するか、計算コストは過度にならないか。
RQ3多 brancheピラミッドプーリングの各ブランチは多尺度特徴抽出とセグメンテーション性能にどのような影響を与えるか。
RQ4標準ベンチマークでPPMambaの性能と効率を、CNN系・トランスフォーマー系・他のMamba系RS分割モデルと比較してどう評価されるか。

主な発見

Model	Type	impervious surface (F1/IoU)	building (F1/IoU)	low vegetation (F1/IoU)	tree (F1/IoU)	car (F1/IoU)	mF1	mIoU
ABCNet	C	89.68/90.45	93.72/93.90	77.93/75.52	89.81/91.07	73.46/63.16	84.92	74.57
MANet	C	90.28/91.74	94.28/93.07	78.95/79.26	89.85/89.76	77.58/70.76	86.19	76.32
CMTFNet	C	90.69/90.50	95.03/96.20	78.89/76.18	90.13/91.33	82.09/74.95	87.37	78.06
FTUNetFormer	T	90.78/90.37	94.54/94.88	76.48/73.59	89.15/91.83	75.28/66.49	85.25	75.09
UNetFormer	C-T	90.37/92.19	94.58/93.44	78.37/76.56	90.19/91.15	81.85/75.87	87.07	77.60
HST_UNet	C-T	91.27/91.34	95.36/95.43	78.44/77.27	90.04/91.02	83.61/79.07	86.62	78.67
TransUNet	C-T	91.24/90.31	94.82/96.63	78.85/74.71	90.54/92.79	83.77/78.97	87.84	78.78
RS3Mamba	M	90.87/89.99	95.26/95.59	78.49/75.74	90.20/91.93	81.83/74.10	87.33	78.04
RS-Mamba	M	88.37/87.73	92.52/92.08	76.31/75.68	89.14/90.14	72.20/64.24	83.71	72.77
PPMamba	M	91.86/91.01	95.94/96.52	79.04/77.17	90.23/92.08	84.61/80.03	88.34	79.60

PPMambaはVaihingenでRS-Mambaより高いmIoUおよびmF1を達成し、mIoUで6.83ポイント、mF1で4.63ポイント向上。
VaihingenではPPMambaが5つの前景クラス（不透水面、建物、低木本 vegetation、樹木、車両）すべてでクラス別F1/IoUの最高値を達成。
LoveDA UrbanではPPMambaが9モデル中で最高のmIoU(46.14)とmF1(61.76)を獲得し、背景・建物・水のクラスでIoU/F1がトップ。
PPMambaは建物・樹木・車両の境界描写でRS-Mambaより顕著な改善を示し、定性的ヒートマップで連続的な境界を提供。
アブレーション研究では、多枝補助構造とピラミッド形状カーネルがRS-MambaよりmIoUおよびmF1を大幅に向上させる（Vaihingen: mIoU 83.71→88.34; Urban: mIoU 54.47→46.14? 注: 詳細表を参照）。
アーキテクチャは線形計算量を維持し、MambaとCNNベースの多尺度プーリングを組み合わせて局所ディテールとグローバル文脈のバランスを取る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。