[論文レビュー] Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution
この論文は、周波数支援型の Mamba フレームワークである FMSR を提案する。リモートセンシング画像超解像において、Vision State Space Modeling(Mamba)と周波数認識モジュールを統合し、線形計算量でグローバル・ローカルのデュアルドメインモデリングとPSNRの改善を実現する。
Recent progress in remote sensing image (RSI) super-resolution (SR) has exhibited remarkable performance using deep neural networks, e.g., Convolutional Neural Networks and Transformers. However, existing SR methods often suffer from either a limited receptive field or quadratic computational overhead, resulting in sub-optimal global representation and unacceptable computational costs in large-scale RSI. To alleviate these issues, we develop the first attempt to integrate the Vision State Space Model (Mamba) for RSI-SR, which specializes in processing large-scale RSI by capturing long-range dependency with linear complexity. To achieve better SR reconstruction, building upon Mamba, we devise a Frequency-assisted Mamba framework, dubbed FMSR, to explore the spatial and frequent correlations. In particular, our FMSR features a multi-level fusion architecture equipped with the Frequency Selection Module (FSM), Vision State Space Module (VSSM), and Hybrid Gate Module (HGM) to grasp their merits for effective spatial-frequency fusion. Considering that global and local dependencies are complementary and both beneficial for SR, we further recalibrate these multi-level features for accurate feature fusion via learnable scaling adaptors. Extensive experiments on AID, DOTA, and DIOR benchmarks demonstrate that our FMSR outperforms state-of-the-art Transformer-based methods HAT-L in terms of PSNR by 0.11 dB on average, while consuming only 28.05% and 19.08% of its memory consumption and complexity, respectively. Code will be available at https://github.com/XY-boy/FreMamba
研究の動機と目的
- 大規模なリモートセンシング画像を対象とした SR 課題における長距離依存の効率的なモデリングを動機づける。
- 線形複雑さでのグローバルモデリングを実現するために Mamba(Vision State Space Model)を活用する。
- 高周波情報を捉え、より良い再構成を目指す周波数認識コンポーネントを導入する。
- 学習可能なアダプターを介してグローバルとローカル表現を統合する多段階融合アーキテクチャを設計する。
提案手法
- Frequency-assisted Mamba Groups (FMG) を備えた Frequency-assisted Mamba バックボーンを採用する。
- 各 Frequency-assisted Mamba Block (FMB) における3つの並列ブランチを使用する:グローバル空間モデリングのための Vision State Space Module (VSSM)、周波数領域の手がかりのための Frequency Selection Module (FSM)、適応的融合のための学習可能なスケーリング因子。
- 局所的誘導バイアスを注入する Hybrid Gate Module (HGM) と高周波情報を制御する Frequency Selection Module を組み込む。
- クロスレベル特徴のリスケールとマルチレベル特徴融合の改善のための学習可能なアダプターを実装する。
- AID データセットで L1 ロスを用いて最適化し、パッチから再訓練し、AID・DOTA・DIOR のベンチマークで PSNR/SSIM/LPIPS により評価。
![Figure 1: The Effective Receptive Field (ERF) [ 17 ] comparison for (a) CNN-based method NLSN [ 18 ] , (b) Transformer-based model RGT [ 19 ] , and the proposed Mamba-based network FMSR. A wider distribution of dark areas demonstrates larger ERF. Our FMSR effectively obtains the largest ERF, indicat](https://ar5iv.labs.arxiv.org/html/2405.04964/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1周波数認識コンポーネントを備えた Mamba ベースのフレームワークは、大規模 RSI SR タスクにおける長距離依存を効果的にモデル化できるか。
- RQ2周波数領域の手がかりと局所バイアスモジュールは、純粋にグローバルまたはローカルモデルと比べて SR 再構成を改善するか。
- RQ3高解像度 RSI SR に線形複雑さの SSM ベース手法を適用した際のメモリと計算のトレードオフは何か。
- RQ4標準的な RSI ベンチマークで最先端の Transformer ベース SR 手法と比較して FMSR はどう性能を示すか。
主な発見
- FMSR は PSNR で最先端の Transformer ベース手法 HAT-L を評価された RSI ベンチマーク全体で平均0.11 dB 上回る。
- FMSR は HAT-L のメモリの 28.05%、計算量の 19.08% を占有し、顕著な効率向上を示す。
- アブレーション研究は、VSSM(グローバルモデリング)、HGM(局所バイアス)、FSM(周波数選択)を統合することが性能向上に寄与し、FSMとHGM が顕著な改善をもたらすことを示す。
- AID、DOTA、DIOR データセットで、FMSR は競争力のある PSNR/SSIM/LPIPS を示し、FMSR++ 自己埋め込みバリアントがさらなる向上を達成。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。