[논문 리뷰] SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series
SiMBA는 Mamba 기반 시퀀스 모델링과 Fourier 영역에서의 새로운 EinFFT 채널 혼합을 결합하여, Vision 및 다변량 시계열 작업에서 트랜스포머와의 성능 격차를 줄이고 안정적이며 확장 가능한 상태공간 아키텍처를 구축하여 ImageNet 및 시계열에서 강력한 성과를 달성합니다.
Transformers have widely adopted attention networks for sequence mixing and MLPs for channel mixing, playing a pivotal role in achieving breakthroughs across domains. However, recent literature highlights issues with attention networks, including low inductive bias and quadratic complexity concerning input sequence length. State Space Models (SSMs) like S4 and others (Hippo, Global Convolutions, liquid S4, LRU, Mega, and Mamba), have emerged to address the above issues to help handle longer sequence lengths. Mamba, while being the state-of-the-art SSM, has a stability issue when scaled to large networks for computer vision datasets. We propose SiMBA, a new architecture that introduces Einstein FFT (EinFFT) for channel modeling by specific eigenvalue computations and uses the Mamba block for sequence modeling. Extensive performance studies across image and time-series benchmarks demonstrate that SiMBA outperforms existing SSMs, bridging the performance gap with state-of-the-art transformers. Notably, SiMBA establishes itself as the new state-of-the-art SSM on ImageNet and transfer learning benchmarks such as Stanford Car and Flower as well as task learning benchmarks as well as seven time series benchmark datasets. The project page is available on this website ~\url{https://github.com/badripatro/Simba}.
연구 동기 및 목표
- 비전 및 시계열에서 장기 의존성을 위한 안정적이고 확장 가능한 시퀀스 모델의 필요성을 제시합니다.
- Mamba 불안정성을 해결하기 위한 안정적인 채널 혼합 기법(EinFFT)을 도입합니다.
- Mamba 시퀀스 모델링과 EinFFT 채널 혼합을 결합한 간소화된 아키텍처인 SiMBA를 제안합니다.
- 기존 SSM 대비 SiMBA의 성능 향상과 여러 데이터셋에서 최첨단 트랜스포머와의 경쟁력 있는 위치를 입증합니다.
제안 방법
- 변환된 특징에서 복소 아이슈타인 행렬 곱을 사용하는 주파수 영역 채널 혼합 기법으로 EinFFT를 도입합니다.
- SiMBA를 형성하기 위해 Mamba 기반 시퀀스 모델 내에 EinFFT를 포함시키고, 안정적인 학습과 긴 시퀀스 처리의 효율성을 가능하게 합니다.
- 학습 안정성을 높이기 위해 드롭아웃과 정규화를 갖춘 잔차 연결을 사용합니다.
- 시퀀스 모델링(Mamba)과 채널 혼합(EinFFT)을 모두 활용하는 피라미드/경쟁형 아키텍처를 제공합니다.
- ImageNet-1K, 전이 학습 벤치마크(CIFAR, Stanford Car, Flowers) 및 시계열 데이터셋에 대한 광범위한 실험을 통해 검증합니다.
실험 결과
연구 질문
- RQ1EinFFT가 시각 작업을 위한 대형 네트워크로 확장할 때 Mamba를 안정화시킬 수 있는가?
- RQ2SiMBA가 ImageNet 및 시계열 벤치마크에서 상태공간 모델과 트랜스포머 간의 성능 격차를 줄이는가?
- RQ3전이 학습 및 인스턴스 분할과 같은 다운스트림 작업에서 SiMBA의 성능은 어떠한가?
- RQ4잔차, 드롭아웃 등의 아키텍처 요소가 SiMBA의 안정성과 성능에 미치는 영향은 무엇인가?
주요 결과
- SiMBA는 대규모에서 Mamba가 관찰한 불안정성 이슈를 해결하며 비전 및 시계열 벤치마크에서 강력한 성능을 달성합니다.
- EinFFT는 안정적이고 효율적인 채널 혼합 메커니즘을 제공하며, Mamba와 결합될 때 ImageNet 및 여러 시계열 데이터 세트에서 SSM 중 최첨단 결과를 제공합니다.
- SiMBA는 경쟁 SSM을 능가하고 보고된 설정에서 최첨단 트랜스포머와의 차이를 상당 부분 좁힙니다.
- SiMBA는 CIFAR, Stanford Car, Flowers 데이터셋에서 전이 학습 효과를 보여주고, 인스턴스 분할 작업에도 적용 가능성을 보입니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.