[논문 리뷰] RS3Mamba: Visual State Space Model for Remote Sensing Images Semantic Segmentation
RS3Mamba는 시각 상태 공간 (VSS) 보조 인코더와 ResNet 주 인코더를 협력 완성 모듈로 융합하여 원격 탐지 의미론적 분할을 선형 복잡도로 개선하는 이중 분기 아키텍처를 도입합니다.
Semantic segmentation of remote sensing images is a fundamental task in geoscience research. However, there are some significant shortcomings for the widely used convolutional neural networks (CNNs) and Transformers. The former is limited by its insufficient long-range modeling capabilities, while the latter is hampered by its computational complexity. Recently, a novel visual state space (VSS) model represented by Mamba has emerged, capable of modeling long-range relationships with linear computability. In this work, we propose a novel dual-branch network named remote sensing images semantic segmentation Mamba (RS3Mamba) to incorporate this innovative technology into remote sensing tasks. Specifically, RS3Mamba utilizes VSS blocks to construct an auxiliary branch, providing additional global information to convolution-based main branch. Moreover, considering the distinct characteristics of the two branches, we introduce a collaborative completion module (CCM) to enhance and fuse features from the dual-encoder. Experimental results on two widely used datasets, ISPRS Vaihingen and LoveDA Urban, demonstrate the effectiveness and potential of the proposed RS3Mamba. To the best of our knowledge, this is the first vision Mamba specifically designed for remote sensing images semantic segmentation. The source code will be made available at https://github.com/sstary/SSRS.
연구 동기 및 목표
- CNN의 로컬 수용영역과 Transformer의 높은 계산복잡도를 해결하여 원격 센싱 이미지의 의미론적 분할을 향상시키려는 동기를 제시한다.
- 전역 맥락을 제공하기 위해 VSS 기반 보조 인코더를 포함한 이중 분기 아키텍처를 도입한다.
- 교차 분기 특징을 효과적으로 융합하기 위한 collaborative completion module(CCM)을 개발한다.
- ISPRS Vaihingen 및 LoveDA Urban 데이터셋에서 비교 분석을 통해 효과를 입증한다.
- 원격 센싱 작업에 Mamba 기반 구성 요소를 도입하는 실용성과 복잡성에 대한 통찰을 제공한다.
제안 방법
- SS2D와 S6를 사용한 보조 VSS 기반 인코더로 선형 복잡도로 장거리 의존성을 포착한다.
- 강력한 로컬 특징 추출을 위한 ResNet18을 사용하는 주 인코더.
- 글로벌 분기(self-attention)와 로컬 분기(합성곱)로 교차 분기 특징을 융합하는 CCM.
- 픽셀 단위 예측을 회복하기 위한 UNetformer 스타일의 스킵 연결을 따른 디코더.
- 학습 목표는 의미 클래스 간의 교차 엔트로피 손실이다.
실험 결과
연구 질문
- RQ1Dual-branch 아키텍처가 Visual State Space(VSS) 블록을 활용하여 CNN- 또는 Transformer-만 모델보다 원격 탐지 이미지의 의미론적 분할을 향상시킬 수 있는가?
- RQ2협력적 완성 모듈(CCM)이 전역 VSS 기반 특징과 로컬 CNN 특징을 효과적으로 융합하여 분할 품질을 향상시키는가?
- RQ3표준 원격 탐지 데이터셋(ISPRS Vaihingen 및 LoveDA Urban)에서 최신 방법과 비교한 성능 향상은 어느 정도인가?
- RQ4RS3Mamba의 계산적 트레이드오프( FLOPs, 매개변수, 메모리) 는 Transformer- 및 CNN 기반 대응 모델에 비해 어떤가?
- RQ5이것이 원격 탐성 의미 분할에 맞춘 최초의 비전 Mamba 모델이며 소스 코드는 공개되어 있는가?
주요 결과
| 방법 | 백본 | 불투수 표면 (F1/IoU) | 건물 (F1/IoU) | 저식생 (F1/IoU) | 나무 (F1/IoU) | 차량 (F1/IoU) | mF1 | mIoU |
|---|---|---|---|---|---|---|---|---|
| ABCNet | ResNet-18 | 89.78/81.45 | 94.30/89.21 | 78.49/64.59 | 90.08/81.95 | 74.05/58.80 | 85.34 | 75.20 |
| TransUNet | R50-ViT-B | 90.77/83.10 | 94.32/89.25 | 79.02/65.32 | 90.53/82.70 | 82.66/70.45 | 87.46 | 78.16 |
| UNetformer | ResNet-18 | 92.33/85.76 | 96.25/92.78 | 80.47/67.33 | 90.85/83.22 | 89.35/80.75 | 89.85 | 81.97 |
| CMTFNet | ResNet-50 | 92.53/86.09 | 96.95 / 94.09 | 79.98/66.64 | 90.22/82.19 | 89.87/81.60 | 89.91 | 82.12 |
| RS3Mamba | R18-Mamba-T | 92.83 / 86.62 | 96.82/93.83 | 80.84 / 67.84 | 91.10 / 83.66 | 90.09 / 81.97 | 90.34 | 82.78 |
- RS3Mamba는 ISPRS Vaihingen에서 mF1 90.34 및 mIoU 82.78을 달성하여 UNetformer 기준을 능가한다.
- Vaihingen에서 RS3Mamba는 기공가 표면 IoU를 기준선 대비 0.53 낮추고 저식생 IoU를 0.51 낮춘다? [주의: 원문과 같은 수치를 유지합니다]
- LoveDA Urban에서 RS3Mamba는 mF1 66.86 및 mIoU 50.93를 달성하며 농업(IoU +8.33%) 및 기타 클래스에서 뚜렷한 향상을 보인다.
- 이원 분기 설계와 CCM의 제거 실험은 단일 분기 또는 간단한 융합 대비 최상의 성능(mF1 90.34, mIoU 82.78)을 제공한다.
- TransUNet과 비교해 낮은 FLOPs 및 매개변수로 경쟁력 있는 성능을 제공한다(FLOPs 31.65G vs 64.55G).
- CCM의 제거 실험은 CCM이 크로스-브랜치 융합에 유효함을 확인하며 단순 추가나 CCM 없음보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.