QUICK REVIEW

[論文レビュー] LWGANet: Addressing Spatial and Channel Redundancy in Remote Sensing Visual Tasks with Light-Weight Grouped Attention

Lu Wei, Yang, Xue|ArXiv.org|Jan 17, 2025

Infrared Target Detection Methodologies被引用数 6

ひとこと要約

LWGANetは軽量なバックボーンと新規LWGAモジュールを提案し、リモートセンシング画像のマルチスケール特徴を活用することで、分類、検出、セマンティックセグメンテーション、変化検出タスク全体で低い計算量にもかかわらず高い性能を達成します。

ABSTRACT

Light-weight neural networks for remote sensing (RS) visual analysis must overcome two inherent redundancies: spatial redundancy from vast, homogeneous backgrounds, and channel redundancy, where extreme scale variations render a single feature space inefficient. Existing models, often designed for natural images, fail to address this dual challenge in RS scenarios. To bridge this gap, we propose LWGANet, a light-weight backbone engineered for RS-specific properties. LWGANet introduces two core innovations: a Top-K Global Feature Interaction (TGFI) module that mitigates spatial redundancy by focusing computation on salient regions, and a Light-Weight Grouped Attention (LWGA) module that resolves channel redundancy by partitioning channels into specialized, scale-specific pathways. By synergistically resolving these core inefficiencies, LWGANet achieves a superior trade-off between feature representation quality and computational cost. Extensive experiments on twelve diverse datasets across four major RS tasks--scene classification, oriented object detection, semantic segmentation, and change detection--demonstrate that LWGANet consistently outperforms state-of-the-art light-weight backbones in both accuracy and efficiency. Our work establishes a new, robust baseline for efficient visual analysis in RS images.

研究の動機と目的

Resource-constrained environments内で大規模オブジェクト変動を扱える効率的なRSバックボーンの必要性を動機づける。
計算負荷を増やさずにマルチスケール特徴を抽出する専用LWGAモジュールを備えた軽量バックボーン（LWGANet）を開発する。
RS固有の課題を、専用のアテンションサブモジュールによる冗長な特徴情報の活用を通じて対処する。
複数のデータセットでRSシーン分類、指向オブジェクト検出、セマンティックセグメンテーション、変化検出にわたるLWGANetの広い適用性を示す。

提案手法

LWGANetを導入する。これはLWGAブロックを備えた4段階のバックボーンで、特徴マップを段階的にダウンサンプリングする。
軽量グループアテンション（LWGA）モジュールを提案し、冗長な特徴を再利用して追加の空間コストなしにローカルからグローバルスケール情報を抽出する。
LWGA内部に4つのサブモジュールを組み込み：GPA（gate point attention）、RLA（regular local attention）、SMA（sparse medium-range attention）、SGA（sparse global attention）、 RS画像の多様なスケールをカバー。
LWGAでは入力を4つの部分に分割し、TGFI（top-k global feature interaction）を適用して座標を保持しつつ顕著なグローバル手掛かりを捕捉する。
LWGA後にチャネルごとの再調整のためにチャネルMLP（CMLP）を使用し、安定性のための残差接続を取り入れる。
DRFDを用いたダウンサンプリングで細部を保存し、マルチステージRS特徴抽出を実現する。
RSシーン分類には事前学習なしで、検出/セグメンテーションタスクは標準的な実践（いくつかのタスクで300エポックのImageNet-1K事前学習）を用いて訓練する。

実験結果

リサーチクエスチョン

RQ1軽量バックボーンと特殊なグループアテンションモジュールが、低計算コストを維持しつつマルチスケールRSオブジェクトを効果的にモデル化できるか。
RQ2RS固有のアテンション機構（GPA、RLA、SMA、SGA）は、標準のグローバル/ローカルアテンションと比較して細粒度のRS特徴を抽出する際にどうなるか。
RQ3LWGANetベースのパイプラインは、RSシーン分類、検出、セグメンテーション、変化検出データセットにおいて精度、パラメータ、推論速度の間で有利なトレードオフを実現するか。

主な発見

LWGANetはRSシーン分類データセット（UCM、AID、NWPU）で選択されたSOTA軽量バックボーンを精度で上回り、スループットも向上。
RSオブジェクト検出とセグメンテーションのベンチマークで、LWGANet-L2/L0変種は、他の強力なベースラインと比較してパラメータ数とFLOPsが低いまま競争力のあるmAP/mIoUを達成。
LWGAモジュールは、RS画像向けに設計されたサブモジュール（GPA、RLA、SMA、SGA）とTGFIを組み合わせることで、空間次元を増やすことなく効果的なマルチスケール特徴抽出を実現。
実証結果は、GPU、CPU、ARMプラットフォーム全体での精度-パラメータ- FPSの有利なバランスを示し、リソース制約のあるデプロイメントへのLWGANetの適用性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。