Skip to main content
QUICK REVIEW

[論文レビュー] PyramidMamba: Rethinking Pyramid Feature Fusion with Selective Space State Model for Semantic Segmentation of Remote Sensing Imagery

Libo Wang, Dongxu Li|arXiv (Cornell University)|Jun 16, 2024
Advanced Image and Video Retrieval Techniques被引用数 10
ひとこと要約

PyramidMamba は DSPP ベースのプラグアンドプレイデコーダを導入し、Pyramid Fusion Mamba を用いてリモートセンシング分割の多尺度特徴融合における意味的冗長性を低減し、複数のデータセットで最先端の結果を達成します。

ABSTRACT

Semantic segmentation, as a basic tool for intelligent interpretation of remote sensing images, plays a vital role in many Earth Observation (EO) applications. Nowadays, accurate semantic segmentation of remote sensing images remains a challenge due to the complex spatial-temporal scenes and multi-scale geo-objects. Driven by the wave of deep learning (DL), CNN- and Transformer-based semantic segmentation methods have been explored widely, and these two architectures both revealed the importance of multi-scale feature representation for strengthening semantic information of geo-objects. However, the actual multi-scale feature fusion often comes with the semantic redundancy issue due to homogeneous semantic contents in pyramid features. To handle this issue, we propose a novel Mamba-based segmentation network, namely PyramidMamba. Specifically, we design a plug-and-play decoder, which develops a dense spatial pyramid pooling (DSPP) to encode rich multi-scale semantic features and a pyramid fusion Mamba (PFM) to reduce semantic redundancy in multi-scale feature fusion. Comprehensive ablation experiments illustrate the effectiveness and superiority of the proposed method in enhancing multi-scale feature representation as well as the great potential for real-time semantic segmentation. Moreover, our PyramidMamba yields state-of-the-art performance on three publicly available datasets, i.e. the OpenEarthMap (70.8% mIoU), ISPRS Vaihingen (84.8% mIoU) and Potsdam (88.0% mIoU) datasets. The code will be available at https://github.com/WangLibo1995/GeoSeg.

研究の動機と目的

  • リモートセンシングのセマンティックセグメンテーションにおける多尺度特徴融合の過程で生じる意味的冗長性に対処する。
  • 密な空間ピラミッドプーリングを介して豊富な多尺度特徴を符号化するプラグアンドプレイデコーダを開発する。
  • 多尺度特徴融合における冗長性を低減する Pyramid Fusion Mamba モジュールを導入する。
  • OpenEarthMap、ISPRS Vaihingen、Potsdam データセットで最先端の性能を実証する。

提案手法

  • 密な空間ピラミッドプーリング(DSPP)を設計し、豊富な多尺度特徴を符号化する。
  • DSPP を既存のアーキテクチャに組み込むプラグアンドプレイデコーダを開発する。
  • Pyramid Fusion Mamba(PFM)モジュールを提案し、ピラミッド特徴の融合時の意味的冗長性を抑制する。
  • DSPP と PFM の有効性を検証するための総合的なアブレーション研究を実施する。
  • PyramidMamba のセマンティックセグメンテーションにおけるリアルタイム性の可能性を示す。

実験結果

リサーチクエスチョン

  • RQ1密な空間ピラミッドプーリングは、リモートセンシング分割における多尺度特徴符号化をどのように改善できるか?
  • RQ2選択的スペース状態ベースの融合(Pyramid Fusion Mamba)は、ピラミッド特徴の融合における意味的冗長性を低減できるか?
  • RQ3DSPP と PFM を合わせて標準的なリモートセンシングデータセットで最先端の精度を達成するか?

主な発見

  • OpenEarthMap は 70.8% の mIoU を達成。
  • ISPRS Vaihingen は 84.8% の mIoU を達成。
  • Potsdam は 88.0% の mIoU を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。