[논문 리뷰] State Space Model for New-Generation Network Alternative to Transformers: A Survey
이 논문은 상태 공간 모델(SSM) 기반 아키텍처를 트랜스포머의 효율적 대안으로 조사하고, 기원, 변형, NLP, CV, 그래프, 시계열, 다중모달 데이터에 걸친 응용 및 다양한 다운스트림 태스크에서의 실험적 비교를 요약한다.
In the post-deep learning era, the Transformer architecture has demonstrated its powerful performance across pre-trained big models and various downstream tasks. However, the enormous computational demands of this architecture have deterred many researchers. To further reduce the complexity of attention models, numerous efforts have been made to design more efficient methods. Among them, the State Space Model (SSM), as a possible replacement for the self-attention based Transformer model, has drawn more and more attention in recent years. In this paper, we give the first comprehensive review of these works and also provide experimental comparisons and analysis to better demonstrate the features and advantages of SSM. Specifically, we first give a detailed description of principles to help the readers quickly capture the key ideas of SSM. After that, we dive into the reviews of existing SSMs and their various applications, including natural language processing, computer vision, graph, multi-modal and multi-media, point cloud/event stream, time series data, and other domains. In addition, we give statistical comparisons and analysis of these models and hope it helps the readers to understand the effectiveness of different structures on various tasks. Then, we propose possible research points in this direction to better promote the development of the theoretical model and application of SSM. More related works will be continuously updated on the following GitHub: https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List.
연구 동기 및 목표
- State Space Models(SSMs)의 원리와 자기 주의(self-attention) 대안으로의 사용을 소개한다.
- 다양한 도메인에서 기존 SSM 변형, 아키텍처(Mamba, S4, S4ND, DSS 등) 및 응용을 체계적으로 검토한다.
- 다운스트림 태스크에서 SSM 기반 모델의 성능 및 효율성 trade-off를 강조하기 위한 실험 비교 및 분석을 제공한다.
- 이론 및 응용을 발전시킬 연구 방향을 논의하고 관련 작업과 함께 GitHub 리소스를 공유한다.
제안 방법
- 이산-시간 SSM의 수학적 형식화와 칼만 필터링과의 관계를 설명한다.
- Mamba 개선점: 선택적 스캔 연산자(selective scan operator)와 효율적 계산을 위한 하드웨어 친화적 알고리즘을 설명한다.
- 문헌에서의 기존 SSM 기반 모델 및 아키텍처(S4, S4ND, HiPPO, DSS 등)를 도메인별로 요약 및 분류한다.
- 다운스트림 태스크에서 SSM 기반 모델의 효과성과 효율성을 평가하기 위한 실험 비교를 수행한다.
- NLP, 컴퓨터 비전, 그래프, 시계열 및 다중 모달 데이터에 걸친 SSM 응용에 대한 구조화된 개요를 제공한다.
실험 결과
연구 질문
- RQ1딥러닝에서 시퀀스 모델링에 사용되는 상태 공간 모델의 핵심 원리와 형식은 무엇인가?
- RQ2SSM 기반 아키텍처(Mamba, S4, DSS)가 Transformer 및 다른 어텐션 기반 모델과 성능 및 효율성 면에서 태스크별로 어떻게 비교되는가?
- RQ3어떤 도메인 및 데이터 모달리티가 SSM으로부터 가장 큰 혜택을 받으며, 이 모델들의 실용적 한계는 무엇인가?
- RQ4SSM의 이론 개발 및 광범위한 응용을 촉진할 수 있는 향후 연구 방향은 무엇인가?
주요 결과
- SSMs offer a viable, often more compute-efficient alternative to self-attention in Transformers for long-range dependency modeling.
- Mamba-style enhancements improve information filtering and parallel computation, contributing to efficiency and scalability.
- A broad spectrum of SSM-based models demonstrates strong performance across NLP, CV, graphs, time series, and multi-modal tasks, with several reports of favorable accuracy and memory usage.
- The survey provides extensive experimental comparisons across downstream tasks including classification, object tracking, segmentation, image-to-text generation, and re-identification, illustrating practical effectiveness of SSMs.
- A GitHub resource compiles related SSM papers and progress to support ongoing research.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.