[논문 리뷰] EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba
EfficientVMamba는 atrous 기반 선택적 스캐닝 전략(ES2D)과 이중 경로 EVSS 블록을 도입하여 전역 상태-공간 모델링과 로컬 컨볼루션을 결합, FLOPs를 낮추면서 비전 태스크에서 경쟁력 있는 정확도를 유지합니다.
Prior efforts in light-weight model development mainly centered on CNN and Transformer-based designs yet faced persistent challenges. CNNs adept at local feature extraction compromise resolution while Transformers offer global reach but escalate computational demands $\mathcal{O}(N^2)$. This ongoing trade-off between accuracy and efficiency remains a significant hurdle. Recently, state space models (SSMs), such as Mamba, have shown outstanding performance and competitiveness in various tasks such as language modeling and computer vision, while reducing the time complexity of global information extraction to $\mathcal{O}(N)$. Inspired by this, this work proposes to explore the potential of visual state space models in light-weight model design and introduce a novel efficient model variant dubbed EfficientVMamba. Concretely, our EfficientVMamba integrates a atrous-based selective scan approach by efficient skip sampling, constituting building blocks designed to harness both global and local representational features. Additionally, we investigate the integration between SSM blocks and convolutions, and introduce an efficient visual state space block combined with an additional convolution branch, which further elevate the model performance. Experimental results show that, EfficientVMamba scales down the computational complexity while yields competitive results across a variety of vision tasks. For example, our EfficientVMamba-S with $1.3$G FLOPs improves Vim-Ti with $1.5$G FLOPs by a large margin of $5.6\%$ accuracy on ImageNet. Code is available at: \url{https://github.com/TerryPei/EfficientVMamba}.
연구 동기 및 목표
- 전 계산 비용 없이 글로벌 컨텍스트를 유지하는 경량 비전 모델을 동기부여합니다.
- 전역 수신 필드를 보존하면서 스캐닝 복잡성을 줄이기 위해 ES2D를 제안합니다.
- SE 융합을 통해 글로벌 상태-공간 표현과 로컬 컨볼루션을 융합하는 EVSS 블록을 도입합니다.
- 블록 배치를 각 스테이지 across에서 최적화하기 위한 역전 인서전트 삽입을 탐구합니다.
- 이미지 분류, 객체 탐지 및 시맨틱 세그먼테이션에서 효율성을 실증합니다.
제안 방법
- N에서 N/p^2로 scanned 토큰 수를 줄이기 위해 skip 샘플링을 갖춘 atrous 기반 선택적 스캐닝(ES2D)을 도입합니다.
- ES2D 기반 글로벌 특성과 3x3 conv 분기 및 SE 재조정으로 EVSS 블록을 개발합니다.
- SE 이후 요소별 합산으로 글로벌 및 로컬 경로를 융합하여 X^{l+1} = SE(ES2D(X^l)) + SE(Conv(X^l))를 도출합니다.
- 역전 삽입을 채택합니다: 초기 스테이지에 글로벌 표현을 위한 EVSS 블록을 배치하고 더 깊은 스테이지에 로컬 특징을 위한 InRes 블록을 배치합니다.
- 세 가지 모델 변형(EfficientVMamba-T, -S, -B)을 제공하여 FLOPs 및 매개변수를 점진적으로 증가시킵니다.
실험 결과
연구 질문
- RQ1ES2D가 비전 태스크에서 전역 스캐닝의 계산 비용을 감소시키면서 전역 컨텍스트를 보존할 수 있습니까?
- RQ2전역 ES2D 경로와 로컬 컨볼루션 분기를 결합하면 제한된 자원 제약 하에서 정확도가 향상됩니까?
- RQ3경량 모델에서 SSM 기반 블록과 CNN 블록을 결합하는 데 있어 역전 잔류 삽입이 유리합니까?
- RQ4EfficientVMamba 변형은 ImageNet 분류, COCO 객체 탐지 및 ADE20K 시맨틱 세그먼테이션에서 기존 경량 백본과 비교하여 어떤 성능을 보입니까?
주요 결과
- EfficientVMamba-T/S/B는 낮은 FLOPs로 경쟁력 있는 ImageNet 정확도를 달성합니다(각각 0.8/1.3/4.0 GFLOPs).
- EfficientVMamba-S는 1.3 GFLOPs에서 78.7% 상위-1을 달성하며, 더 큰 백본 중 다수를 능가합니다.
- EfficientVMamba-B는 4.0 GFLOPs 및 33M 매개변수로 ImageNet에서 81.8% 상위-1에 도달합니다.
- COCO RetinaNet 실험에서 EfficientVMamba-T는 37.5 AP를 달성하고 EfficientVMamba-B는 42.8 AP로, 일부 기준선보다 매개변수 수가 더 작습니다.
- ADE20K 시맨틱 세그먼테이션에서 EfficientVMamba 변형은 더 무거운 모델보다 뛰어난 성능을 보이며, 경쟁력 있는 mIoU 점수를 달성합니다(예: SS 테스트에서 변형 간 46.5%–46.5%+).
- 제거 연구에서는 ES2D가 FLOPs를 감소시키면서 정확도를 유지하고 SE 융합이 성능을 향상시키며; 역전 삽입은 초기 스테이지에서 글로벌 특징을 더 잘 활용합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.