Skip to main content
QUICK REVIEW

[論文レビュー] Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution

Yi Xiao, Qiangqiang Yuan|arXiv (Cornell University)|May 8, 2024
Advanced Image Fusion Techniques被引用数 7
ひとこと要約

この論文は、周波数支援型の Mamba フレームワークである FMSR を提案する。リモートセンシング画像超解像において、Vision State Space Modeling(Mamba)と周波数認識モジュールを統合し、線形計算量でグローバル・ローカルのデュアルドメインモデリングとPSNRの改善を実現する。

ABSTRACT

Recent progress in remote sensing image (RSI) super-resolution (SR) has exhibited remarkable performance using deep neural networks, e.g., Convolutional Neural Networks and Transformers. However, existing SR methods often suffer from either a limited receptive field or quadratic computational overhead, resulting in sub-optimal global representation and unacceptable computational costs in large-scale RSI. To alleviate these issues, we develop the first attempt to integrate the Vision State Space Model (Mamba) for RSI-SR, which specializes in processing large-scale RSI by capturing long-range dependency with linear complexity. To achieve better SR reconstruction, building upon Mamba, we devise a Frequency-assisted Mamba framework, dubbed FMSR, to explore the spatial and frequent correlations. In particular, our FMSR features a multi-level fusion architecture equipped with the Frequency Selection Module (FSM), Vision State Space Module (VSSM), and Hybrid Gate Module (HGM) to grasp their merits for effective spatial-frequency fusion. Considering that global and local dependencies are complementary and both beneficial for SR, we further recalibrate these multi-level features for accurate feature fusion via learnable scaling adaptors. Extensive experiments on AID, DOTA, and DIOR benchmarks demonstrate that our FMSR outperforms state-of-the-art Transformer-based methods HAT-L in terms of PSNR by 0.11 dB on average, while consuming only 28.05% and 19.08% of its memory consumption and complexity, respectively. Code will be available at https://github.com/XY-boy/FreMamba

研究の動機と目的

  • 大規模なリモートセンシング画像を対象とした SR 課題における長距離依存の効率的なモデリングを動機づける。
  • 線形複雑さでのグローバルモデリングを実現するために Mamba(Vision State Space Model)を活用する。
  • 高周波情報を捉え、より良い再構成を目指す周波数認識コンポーネントを導入する。
  • 学習可能なアダプターを介してグローバルとローカル表現を統合する多段階融合アーキテクチャを設計する。

提案手法

  • Frequency-assisted Mamba Groups (FMG) を備えた Frequency-assisted Mamba バックボーンを採用する。
  • 各 Frequency-assisted Mamba Block (FMB) における3つの並列ブランチを使用する:グローバル空間モデリングのための Vision State Space Module (VSSM)、周波数領域の手がかりのための Frequency Selection Module (FSM)、適応的融合のための学習可能なスケーリング因子。
  • 局所的誘導バイアスを注入する Hybrid Gate Module (HGM) と高周波情報を制御する Frequency Selection Module を組み込む。
  • クロスレベル特徴のリスケールとマルチレベル特徴融合の改善のための学習可能なアダプターを実装する。
  • AID データセットで L1 ロスを用いて最適化し、パッチから再訓練し、AID・DOTA・DIOR のベンチマークで PSNR/SSIM/LPIPS により評価。
Figure 1: The Effective Receptive Field (ERF) [ 17 ] comparison for (a) CNN-based method NLSN [ 18 ] , (b) Transformer-based model RGT [ 19 ] , and the proposed Mamba-based network FMSR. A wider distribution of dark areas demonstrates larger ERF. Our FMSR effectively obtains the largest ERF, indicat
Figure 1: The Effective Receptive Field (ERF) [ 17 ] comparison for (a) CNN-based method NLSN [ 18 ] , (b) Transformer-based model RGT [ 19 ] , and the proposed Mamba-based network FMSR. A wider distribution of dark areas demonstrates larger ERF. Our FMSR effectively obtains the largest ERF, indicat

実験結果

リサーチクエスチョン

  • RQ1周波数認識コンポーネントを備えた Mamba ベースのフレームワークは、大規模 RSI SR タスクにおける長距離依存を効果的にモデル化できるか。
  • RQ2周波数領域の手がかりと局所バイアスモジュールは、純粋にグローバルまたはローカルモデルと比べて SR 再構成を改善するか。
  • RQ3高解像度 RSI SR に線形複雑さの SSM ベース手法を適用した際のメモリと計算のトレードオフは何か。
  • RQ4標準的な RSI ベンチマークで最先端の Transformer ベース SR 手法と比較して FMSR はどう性能を示すか。

主な発見

  • FMSR は PSNR で最先端の Transformer ベース手法 HAT-L を評価された RSI ベンチマーク全体で平均0.11 dB 上回る。
  • FMSR は HAT-L のメモリの 28.05%、計算量の 19.08% を占有し、顕著な効率向上を示す。
  • アブレーション研究は、VSSM(グローバルモデリング)、HGM(局所バイアス)、FSM(周波数選択)を統合することが性能向上に寄与し、FSMとHGM が顕著な改善をもたらすことを示す。
  • AID、DOTA、DIOR データセットで、FMSR は競争力のある PSNR/SSIM/LPIPS を示し、FMSR++ 自己埋め込みバリアントがさらなる向上を達成。
Figure 2: Overview of the proposed FMSR. The Frequency-assisted Mamba Blocks (FMB) are arranged sequentially in Frequency-assisted Mamba Groups (FMG). In FMB, a Frequency Selection Module (FSM) is adopted to assist the learning process of the Vision State Space Module (VSSM) and Hybrid Gate Module (
Figure 2: Overview of the proposed FMSR. The Frequency-assisted Mamba Blocks (FMB) are arranged sequentially in Frequency-assisted Mamba Groups (FMG). In FMB, a Frequency Selection Module (FSM) is adopted to assist the learning process of the Vision State Space Module (VSSM) and Hybrid Gate Module (

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。