[논문 리뷰] RS-Mamba for Large Remote Sensing Image Dense Prediction
RS-Mamba는 글로벌 컨텍스트 모델링을 선형 복잡도로 가능하게 하는 Omnidirectional State Space Models (OSS M)을 도입하여 대형 VHR 원격 탐지 이미지에서 패치 기반 자르기 없이 시맨틱 분할 및 변화 탐지에서 최첨단 성능을 달성한다.
Context modeling is critical for remote sensing image dense prediction tasks. Nowadays, the growing size of very-high-resolution (VHR) remote sensing images poses challenges in effectively modeling context. While transformer-based models possess global modeling capabilities, they encounter computational challenges when applied to large VHR images due to their quadratic complexity. The conventional practice of cropping large images into smaller patches results in a notable loss of contextual information. To address these issues, we propose the Remote Sensing Mamba (RSM) for dense prediction tasks in large VHR remote sensing images. RSM is specifically designed to capture the global context of remote sensing images with linear complexity, facilitating the effective processing of large VHR images. Considering that the land covers in remote sensing images are distributed in arbitrary spatial directions due to characteristics of remote sensing over-head imaging, the RSM incorporates an omnidirectional selective scan module to globally model the context of images in multiple directions, capturing large spatial features from various directions. Extensive experiments on semantic segmentation and change detection tasks across various land covers demonstrate the effectiveness of the proposed RSM. We designed simple yet effective models based on RSM, achieving state-of-the-art performance on dense prediction tasks in VHR remote sensing images without fancy training strategies. Leveraging the linear complexity and global modeling capabilities, RSM achieves better efficiency and accuracy than transformer-based models on large remote sensing images. Interestingly, we also demonstrated that our model generally performs better with a larger image size on dense prediction tasks. Our code is available at https://github.com/walking-shadow/Official_Remote_Sensing_Mamba.
연구 동기 및 목표
- 패치 기반 자르기 없이 초고해상도 원격 탐지 이미지에서 글로벌 컨텍스트를 모델링하는 과제를 동기 부여하고 해결한다.
- 선형 복잡도의 State Space Model 기반 원격 탐사 Mamba(RSM)를 소개한다.
- 다방향 대규모 특징을 포착하기 위한 Omnidirectional Selective Scan Module (OSSM)을 제안한다.
- 간단한 학습 전략으로 시맨틱 분할 및 변화 탐지 데이터셋에서 최첨단 성능을 시연한다.
제안 방법
- 선형 복잡도로 장거리 의존성을 모델링하기 위해 선택적 스캔 메커니즘을 갖춘 State Space Models (SSM)을 채택한다.
- OSS 블록을 갖춘 U-Net 계열 인코더-디코더를 사용한 시맨틱 분할용 Remote Sensing Mamba (RSM-SS)를 설계한다.
- 가중치 공유 및 OSS 블록을 갖춘 Siamese FC-Siam-Conc 백본을 사용하는 변화 탐지를 위한 Remote Sensing Mamba (RSM-CD)를 설계한다.
- 전방향 글로벌 컨텍스트 모델링을 위해 수평, 수직, 대각선, 반대 대각선 및 이들의 반전을 포함한 여덟 방향으로 스캔하는 Omnidirectional Selective Scan Module (OSSM)을 도입한다.
- 이미지 패치를 시퀀스로 임베딩하고 OSSM 기반 특징 추출을 적용한 후, 스킵 연결과 합성곱으로 융합하여 밀집 예측을 생성한다.
실험 결과
연구 질문
- RQ1선형 복잡도의 SSM 기반 아키텍처가 패칭 없이도 대형 VHR 원격 탐지 이미지에서 글로벌 컨텍스트를 효과적으로 모델링할 수 있는가?
- RQ2Omnidirectional Selective Scan Module이 VHR 영상에서 단일/양방향 스캔보다 다방향 대규모 특징을 더 잘 포착하는가?
- RQ3간단한 RSM 기반 모델이 원격 탐지 데이터셋의 시맨틱 분할 및 변화 탐지에서 최첨단 방법을 능가하는가?
- RQ4패치 없는 처리에서 RSM은 패치 기반 트랜스포머 또는 신규 CNN-트랜스포머 하이브리드와 비교해 어떤 성능을 보이는가?
주요 결과
- RSM-SS는 Massachusetts Road 시맨틱 분할 작업에서 최첨단 IoU와 F1을 달성한다 (IoU 0.6735; F1 0.8049).
- 특성 제거 실험은 여덟 방향 선택적 스캐anning을 적용한 OSSM이 SS1D 및 SS2D보다 시맨틱 분할(Massachusetts Road)과 변화 탐지(WHU-CD) 양쪽에서 우수함을 보여준다.
- WHU-CD 변화 탐지에서 OSSM은 IoU 84.96, F1 91.87, Precision 93.37, Recall 90.42를 산출한다.
- RSM-SS와 RSM-CD는 단순한 아키텍처로도 강력한 성능을 보여주며 화려한 학습 트릭 없이도 성능을 발휘한다.
- 전방향 SSM 기반 접근은 대형 VHR 이미지를 직접 처리 가능하게 하여 패치 기반 맥락 손실을 피한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.