Skip to main content
QUICK REVIEW

[논문 리뷰] SMV-EAR: Bring Spatiotemporal Multi-View Representation Learning into Efficient Event-Based Action Recognition

Rui Fan, Weidong Hao|arXiv (Cornell University)|2026. 01. 24.
Human Pose and Action Recognition인용 수 0
한 줄 요약

SMV-EAR는 이벤트 기반 동작 인식을 위한 번역 불변의 시공간 다중 뷰 표현을 제안하고, 이중 분기 동적 융합과 다양한 시간 왜곡 증강을 통해 계산량과 매개변수를 줄인 채로 세 가지 EAR 벤치마크에서 최첨단 성과를 달성한다.

ABSTRACT

Event cameras action recognition (EAR) offers compelling privacy-protecting and efficiency advantages, where temporal motion dynamics is of great importance. Existing spatiotemporal multi-view representation learning (SMVRL) methods for event-based object recognition (EOR) offer promising solutions by projecting H-W-T events along spatial axis H and W, yet are limited by its translation-variant spatial binning representation and naive early concatenation fusion architecture. This paper reexamines the key SMVRL design stages for EAR and propose: (i) a principled spatiotemporal multi-view representation through translation-invariant dense conversion of sparse events, (ii) a dual-branch, dynamic fusion architecture that models sample-wise complementarity between motion features from different views, and (iii) a bio-inspired temporal warping augmentation that mimics speed variability of real-world human actions. On three challenging EAR datasets of HARDVS, DailyDVS-200 and THU-EACT-50-CHL, we show +7.0%, +10.7%, and +10.2% Top-1 accuracy gains over existing SMVRL EOR method with surprising 30.1% reduced parameters and 35.7% lower computations, establishing our framework as a novel and powerful EAR paradigm.

연구 동기 및 목표

  • 공간-시간 다중 뷰 표현을 활용하여 프레임형 집계보다 모션 큐를 더 효과적으로 포착함으로써 고정밀 이벤트 기반 동작 인식(EAR)을 동기화한다.
  • 번역 불변의 SMVRL 파이프라인을 개발하여 희소 이벤트를 H-W, T-H, 및 T-W 뷰로 번역-변환 없이 처리한다.
  • 샘플별 뷰 보완성을 활용하면서 뷰 간 의미 차이를 존중하는 이중 분기 동적 융합 메커니즘을 설계한다.
  • 현실 세계의 속도 가변성을 시뮬레이션하기 위한 생체 영감을 받은 시간 왜곡 증강을 도입하여 일반화를 개선한다.
  • 강건한 모델 크기와 더 낮은 계산 부하를 유지하면서 도전적인 EAR 데이터셋에서 우수한 정확도와 효율성을 입증한다.

제안 방법

  • Translation-invariant Spatiotemporal Multi-View (TISM) representation converts sparse events into 2D maps along T-H and T-W axes using global, bin-less windows and translation-invariant measurements with sum aggregations.
  • Dual-branch Dynamic Cross-view Fusion (DDCF) processes F_th and F_tw with separate branches and learns sample-wise fusion weights via cross-view attention to exploit view complementarity.
  • Learning dynamic fusion weights w_th and w_tw from globally pooled features S through a multi-head attention block to enable sample-specific fusion.
  • Diverse Temporal Warping (DTW) augmentation warps event timestamps using multiple non-uniform functions (identity, linear, power, exponential, cosine) across random intervals to simulate speed variations while maintaining order and continuity.
  • End-to-end training on three EAR datasets (HARDVS, DailyDVS-200, THU-EACT-50-CHL) with evaluation against state-of-the-art SMVRL methods, plus ablations confirming the contribution of each component.

실험 결과

연구 질문

  • RQ1번역 불변 시공간 다중 뷰 표현이 프레임형 표현에 비해 EAR의 판별력을 향상시킬 수 있는가?
  • RQ2뷰 의미를 존중하고 샘플별 보완성을 고려하는 이중 분기 동적 융합 체계가 다중 뷰 EAR에서 초기 융합 전략을 능가하는가?
  • RQ3다양한 시간 왜곡 증강이 실제 속도 가변성을 더 잘 모델하고 일반화를 개선하는가?
  • RQ4표준 EAR 벤치마크에서 TISM, DDCF, DTW를 적용할 때 정확도와 매개변수 및 FLOPs 간의 트레이드오프는 무엇인가?

주요 결과

  • SMV-EAR는 HARDVS, DailyDVS-200, THU-EACT-50-CHL 데이터셋 전반에서 기준선 MVF-Net에 비해 상당한 Top-1 정확도 향상을 달성한다.
  • 번역 불변의 TISM 표현은 T-H 및 T-W 뷰에 대해 차별적이고 번역-강건한 특징을 제공한다.
  • DDCF는 샘플별 동적 가중치를 통해 뷰 간 상호작용을 효과적으로 가능하게 하며 단일 분기 및 초기 결합 기반선을 능가한다.
  • DTW 증강은 비균일한 시간 왜곡을 통해 다양한 동작 속도를 모델링하여 강건성과 정확성을 향상시킨다.
  • 벤치마크 전반에 걸쳐 SMV-EAR는 기 Baseline SMVRL 방법 MVF-Net에 비해 매개변수를 약 30% 감소, MACs를 약 36% 감소시키는 등 더 높은 정확도를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.