[논문 리뷰] SF-Mamba: Rethinking State Space Model for Vision
SF-Mamba는 보조 토큰 스왑과 배치 폴딩, 주기적 상태 재설정을 도입하여 비주얼 맘바의 단방향 스캔을 효율적으로 가능하게 하며, 분류, 탐지, 분할 작업에서 정확도-처리량을 향상시킨다.
The realm of Mamba for vision has been advanced in recent years to strike for the alternatives of Vision Transformers (ViTs) that suffer from the quadratic complexity. While the recurrent scanning mechanism of Mamba offers computational efficiency, it inherently limits non-causal interactions between image patches. Prior works have attempted to address this limitation through various multi-scan strategies; however, these approaches suffer from inefficiencies due to suboptimal scan designs and frequent data rearrangement. Moreover, Mamba exhibits relatively slow computational speed under short token lengths, commonly used in visual tasks. In pursuit of a truly efficient vision encoder, we rethink the scan operation for vision and the computational efficiency of Mamba. To this end, we propose SF-Mamba, a novel visual Mamba with two key proposals: auxiliary patch swapping for encoding bidirectional information flow under an unidirectional scan and batch folding with periodic state reset for advanced GPU parallelism. Extensive experiments on image classification, object detection, and instance and semantic segmentation consistently demonstrate that our proposed SF-Mamba significantly outperforms state-of-the-art baselines while improving throughput across different model sizes. We will release the source code after publication.
연구 동기 및 목표
- 기존 비주얼 맘바 모델의 인과성 및 속도 한계를 해결하여 효율적인 비전 인코더를 고취한다.
- 미래에서 과거로의 정보 흐름을 가능하게 하는 최소 오버헤드의 단방향 스캔을 개발한다.
- 배치 폴딩과 주기적 상태 재설시를 통해 짧은 시퀀스 비전 작업의 GPU 병렬성을 개선한다.
- 이미지 분류, 객체 탐지, 의미/인스턴스 분할에서 SF-Mamba의 효과를 입증한다.
제안 방법
- 두 개의 보조 토큰과 경량의 매개변수 없는 스왑 연산을 활용하여 단방향 스캔 내에서 양방향 정보 흐름을 가능하게 하는 보조 패치 스와핑을 제안한다.
- T 스텝마다 제어된 상태 재설정을 통해 배치와 시퀀스 차원을 병합하면서 독립성을 유지하는 배치 폴딩을 도입한다.
- 단방향 스캔과 선택적 SSM 블록으로 구성된 맘바비전 하이브리드 아키텍처에 미래-과거 경로를 위한 보조 토큰을 추가한다.
- 경계 처리와 배치 폴딩 데이터를 지원하는 깊이별 1D 합성곱 구현을 제공하여 정당성을 유지한다.
- 시퀀스 길이와 배치 크기에 따라 배치 폴딩을 최적화하기 위해 LUT를 통해 적응형 B1/B 비율을 사전계산한다.
- 분류를 위한 ImageNet-1K와 ADE20K 분할을 위한 UperNet, 추가로 애 Appendix에 따른 객체 탐지 워크플로우를 평가한다.

실험 결과
연구 질문
- RQ1단방향 맘바를 보조 토큰 스왑으로 양방향 스캔만큼 표현력이 높아지게 만들 수 있는가?
- RQ2주기적 상태 재설정이 짧은 시퀀스에서 SF-Mamba의 속도를 현저히 높이고 정확도는 손실하지 않는가?
- RQ3보조 토큰이 미래-과거 정보 흐름과 전반적인 표현 품질에 어떤 영향을 미치는가?
- RQ4SF-Mamba의 처리량-정확도 트레이드오프가 첨단 CNN/트랜스포머/하이브리드 백본과 비교해 어떠한가?
- RQ5분류에 비해 분할 및 탐지 작업에서 SF-Mamba의 성능은 어떠한가?
주요 결과
- SF-Mamba는 모듈 규모(T/S/B) 전반에 걸쳐 최첨단 베이스라인과 비교하여 우수한 정확도-처리량 트레이드오프를 달성한다.
- 짧은 시퀀스에 대해 SSM 커널의 배치 폴딩으로 110%~180%의 속도 향상이 관찰된다.
- 보조 토큰 스왑이 IN1K와 ADE20K 성능을 미미한 속도 영향으로 향상시킨다는 애블레이션 결과가 있다.
- 단일 스캔 기반의 기준선과 비교할 때 보조 토큰 스왑은 양방향 정보 흐름과 더 나은 정확도를 제공한다.
- 다양한 이중 스캔 설계와 비교할 때 SF-Mamba의 단일 스캔+스왑은 더 낮은 오버헤드로 경쟁력 있는 정확도를 달성한다.
- SF-Mamba-S 및 SF-Mamba-T 변형은 분류 및 ADE20K 분할 작업에서 Pareto-효율적 범위 내에서 강력한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.