QUICK REVIEW

[논문 리뷰] STM: SpatioTemporal and Motion Encoding for Action Recognition

Boyuan Jiang, Mengmeng Wang|arXiv (Cornell University)|2019. 08. 07.

Human Pose and Action Recognition참고 문헌 39인용 수 59

한 줄 요약

STM은 Channel-wise SpatioTemporal Module (CSTM) 및 Channel-wise Motion Module (CMM)를 통해 시공간 및 동작 특징을 인코딩하는 통일된 2D CNN을 제안하고, 잔차 블록을 ResNet에서 대체하여 3D 컨볼루션이나 광학 흐름 전처리 없이 최신 기술보다 성능을 달성합니다.

ABSTRACT

Spatiotemporal and motion features are two complementary and crucial information for video action recognition. Recent state-of-the-art methods adopt a 3D CNN stream to learn spatiotemporal features and another flow stream to learn motion features. In this work, we aim to efficiently encode these two features in a unified 2D framework. To this end, we first propose an STM block, which contains a Channel-wise SpatioTemporal Module (CSTM) to present the spatiotemporal features and a Channel-wise Motion Module (CMM) to efficiently encode motion features. We then replace original residual blocks in the ResNet architecture with STM blcoks to form a simple yet effective STM network by introducing very limited extra computation cost. Extensive experiments demonstrate that the proposed STM network outperforms the state-of-the-art methods on both temporal-related datasets (i.e., Something-Something v1 & v2 and Jester) and scene-related datasets (i.e., Kinetics-400, UCF-101, and HMDB-51) with the help of encoding spatiotemporal and motion features together.

연구 동기 및 목표

시공간 및 모션 정보를 공동 인코딩하여 효율적인 동작 인식을 추진한다.
3D 컨볼루션 및 광학 흐름 전처리의 필요성을 제거하면서도 높은 정확도를 유지한다.
기존의 2D CNN 백본(예: ResNet)으로의 손쉬운 통합을 가능하게 하되 계산 오버헤드를 최소화한다.

제안 방법

Channel-wise SpatioTemporal Module (CSTM)을 도입하여 채널별로 시간 정보를 로컬 공간 처리와 융합한다.
Consecutive 프레임에서 명시적 광학 흐름 없이 모션과 유사한 표현을 추출하기 위해 Channel-wise Motion Module (CMM)을 도입한다.
CSTM과 CMM을 잔차 스타일의 아이덴티티 경로 및 1x1 채널 차원 축소/확장을 결합한 STM 블록으로 구성하여 ResNet 아키텍처에 삽입 가능하게 한다.
ResNet의 표준 잔차 블록을 STM 블록으로 대체하여 3D 연산이나 사전 계산된 흐름 없이 경량의 2D CNN인 STM 네트워크를 구축한다.
CSTM과 CMM의 합산 융합이 연결(concatenation)보다 더 나은 성능을 보이며, 네트워크를 더 깊게 배치할수록 STM 블록의 성능이 향상됨을 입증한다.

실험 결과

연구 질문

RQ13D 컨볼루션이나 광학 흐름 전처리 없이도 단일 2D CNN에서 시공간 및 모션 특징을 효과적으로 인코딩할 수 있는가?
RQ2채널별( per-channel) 시간 융합 및 채널별 모션 표현이 동작 인식에 상호 보완적인 이점을 제공하는가?
RQ3융합 전략, 블록 배치, 시간 커널 설계가 STM 성능에 미치는 영향은 무엇인가?

주요 결과

STM은 RGB 프레임만으로 Something-Something v1/v2, Jester와 같은 시공간 관련 데이터셋에서 최첨단 결과를 달성한다.
Something-Something v1에서 8 프레임일 때 STM은 TSN에 비해 top-1 정확도를 약 29.5% 향상시키고; 16 프레임일 때는 34.5–34.2% 향상을 달성한다.
Something-Something v2에서 8 및 16 프레임 모두에서 STM은 TSN 대비 상당한 이득을 제공한다(상위 1위 및 상위 5위 지표).
Kinetics-400에서 STM은 73.7% top-1 및 91.6% top-5를 달성하며 3D 및 양방향 흐름 방법과 경쟁하면서도 계산 측면에서 더 가볍다.
UCF-101 및 HMDB-51에서 STM은 여러 베이스라인에 근접하거나 이를 상회하며 RGB 전용 TSN을 능가하고, 특히 Kinetics에서의 프리트레이닝과 함께 I3D 기반 접근과 경쟁력이 있다.
어블레이션 연구는: CSTM과 CMM 각각 상당한 이득을 제공하고, 채널별 시간 융합이 일반 시간 컨볼루션보다 우수하며 합산 융합이 연결보다 우수하다는 것을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.