[논문 리뷰] SSTFormer: Bridging Spiking Neural Network and Memory Support Transformer for Frame-Event based Recognition
SSTFormer는 하이브리드 Spiking CNN과 Memory Support Transformer를 통한 병목 융합 모듈로 RGB 프레임과 원시 이벤트 스트림을 융합하고, RGB-Event 인식을 발전시키기 위해 PokerEvent 데이터셋을 도입한다.
Event camera-based pattern recognition is a newly arising research topic in recent years. Current researchers usually transform the event streams into images, graphs, or voxels, and adopt deep neural networks for event-based classification. Although good performance can be achieved on simple event recognition datasets, however, their results may be still limited due to the following two issues. Firstly, they adopt spatial sparse event streams for recognition only, which may fail to capture the color and detailed texture information well. Secondly, they adopt either Spiking Neural Networks (SNN) for energy-efficient recognition with suboptimal results, or Artificial Neural Networks (ANN) for energy-intensive, high-performance recognition. However, seldom of them consider achieving a balance between these two aspects. In this paper, we formally propose to recognize patterns by fusing RGB frames and event streams simultaneously and propose a new RGB frame-event recognition framework to address the aforementioned issues. The proposed method contains four main modules, i.e., memory support Transformer network for RGB frame encoding, spiking neural network for raw event stream encoding, multi-modal bottleneck fusion module for RGB-Event feature aggregation, and prediction head. Due to the scarce of RGB-Event based classification dataset, we also propose a large-scale PokerEvent dataset which contains 114 classes, and 27102 frame-event pairs recorded using a DVS346 event camera. Extensive experiments on two RGB-Event based classification datasets fully validated the effectiveness of our proposed framework. We hope this work will boost the development of pattern recognition by fusing RGB frames and event streams. Both our dataset and source code of this work will be released at https://github.com/Event-AHU/SSTFormer
연구 동기 및 목표
- RGB 프레임과 이벤트 스트림을 융합하여 단일 모달리티의 이벤트 기반 인식 성능 한계를 극복한다.
- 에너지 효율적이면서도 정확한 인식을 Spiking Neural Networks와 Transformer 기반의 시계열 모델링을 결합하여 개발한다.
- 프레임-이벤트 인식 모델의 견고한 평가를 가능하게 하는 대규모 RGB-Event 데이터셋(PokerEvent)을 제안한다.
- RGB와 이벤트 특징을 분류에 효과적으로 통합하기 위한 다중 모달 병목 융합 메커니즘을 도입한다.]
- method:[
- Directly encode raw event streams with a Spiking Neural Network (SNN) encoder paired with an ANN decoder to balance energy and accuracy.
- Use a Memory Support Transformer (MST) to capture spatial-temporal information from RGB frames via clip-based support-query cross-attention.
- Fuse RGB and event features through a Multi-modal Bottleneck Fusion (MBF) module with deformable convolutions for interactive learning.
- Optional dual-Transformer variant combines SpikingFormer with MST for enhanced RGB-Event recognition.
- Train with cross-entropy loss and a 16-step SNN simulation to align with video-length inputs.
제안 방법
- 에너지와 정확도 사이의 균형을 맞추기 위해 Spiking Neural Network(SNN) 인코더로 원시 이벤트 스트림을 직접 인코딩하고 ANN 디코더와 쌍으로 사용한다.
- clip 기반의 서포트-쿼리 교차 주의를 통해 RGB 프레임에서 시공간 정보를 포착하기 위해 Memory Support Transformer(MST)를 사용한다.
- 상호 작용 학습을 위한 변형 가능한 합성으로 RGB 및 이벤트 특징을 다중 모달 병목 융합(MBF) 모듈을 통해 융합한다.
- 선택적 이중 Transformer 변형은 SpikingFormer와 MST를 결합하여 향상된 RGB-Event 인식을 제공한다.
- 비디오 길이 입력에 맞추기 위해 크로스 엔트로피 손실과 16단계 SNN 시뮬레이션으로 학습한다.
실험 결과
연구 질문
- RQ1RGB 프레임과 원시 이벤트 스트림을 효과적으로 융합하여 단일 모달리티를 넘는 프레임-이벤트 인식을 개선할 수 있는가?
- RQ2원시 이벤트 스트림용 SNN 인코더와 RGB 프레임용 MST를 결합하면 우수한 정확도-에너지 트레이드오프를 달성하는가?
- RQ3MBF 융합 전략이 다중 모달 인식 성능에 미치는 영향은 무엇인가?
- RQ4제안된 프레임워크가 실용적인 프레임-이벤트 인식 작업을 위해 설계된 대규모 RGB-Event 데이터셋에 일반화되는가?
주요 결과
- 제안된 SCNN-MST 융합(RGB-Event)은 PokerEvent에서 단일 모달리티 기준선 대비 인식을 향상시키며, 제거 실험에서 top-1 53.19% 및 top-5 53.80%를 달성한다.
- 이중 Transformer 변형(SpikingFormer-MST)은 PokerEvent에서 top-1 54.74%와 HARDVS에서 top-5 60.17%를 달성하여 스파이킹과 트랜스포머 패러다임의 결합으로 추가 이득을 보여준다.
- MBF 융합은 일관되게 성능을 향상시키며, PokerEvent의 top-1이 53.80%(MBF 포함)로 상승하고 HARDVS의 top-1은 49.40%로 상승한다(ablation 연구).
- HARDVS에서 RGB MST 단독은 top-1 48.17%에 도달하고, Event 기반 인식에서 SCNN 단독은 top-1 49.02%를 달성하여 모달리티의 상호 보완적 강점을 입증한다.
- 융합을 적용한 PokerEvent 결과는 여러 RGB 및 트랜스포머 기반 기준선과 경쟁력이 있어 실용적 인식 작업을 위한 RGB-Event 융합의 타당성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.