Skip to main content
QUICK REVIEW

[논문 리뷰] StNet: Local and Global Spatial-Temporal Modeling for Action Recognition

Dongliang He, Zhichao Zhou|arXiv (Cornell University)|2018. 11. 05.
Human Pose and Action Recognition참고 문헌 34인용 수 23
한 줄 요약

StNet는 3N채널 슈퍼이미지와 시간 Xception 블록을 통해 국소적 공간-시간 특징과 전역 역학을 모델링하는 새로운 2D+시간 합성곱 구조를 제안한다. 이는 3D-CNN과 비교해 5배 적은 FLOPs로 Kinetics600에서 최고 성능인 78.99% top-1 정확도를 달성했으며, UCF101에서 Inception-ResNet-V2를 사용한 전이 학습 시 95.7%의 정확도를 기록했다.

ABSTRACT

Despite the success of deep learning for static image understanding, it remains unclear what are the most effective network architectures for the spatial-temporal modeling in videos. In this paper, in contrast to the existing CNN+RNN or pure 3D convolution based approaches, we explore a novel spatial temporal network (StNet) architecture for both local and global spatial-temporal modeling in videos. Particularly, StNet stacks N successive video frames into a \emph{super-image} which has 3N channels and applies 2D convolution on super-images to capture local spatial-temporal relationship. To model global spatial-temporal relationship, we apply temporal convolution on the local spatial-temporal feature maps. Specifically, a novel temporal Xception block is proposed in StNet. It employs a separate channel-wise and temporal-wise convolution over the feature sequence of video. Extensive experiments on the Kinetics dataset demonstrate that our framework outperforms several state-of-the-art approaches in action recognition and can strike a satisfying trade-off between recognition accuracy and model complexity. We further demonstrate the generalization performance of the leaned video representations on the UCF101 dataset.

연구 동기 및 목표

  • 대규모 행동 인식을 위한 영상에서 효과적인 공간-시간 모델링에 도전한다.
  • CNN+RNN 및 3D-CNN 아키텍처의 한계, 예를 들어 학습 불안정성과 높은 계산 비용을 해결한다.
  • 국소적 및 전역 공간-시간 역학을 동시에 모델링할 수 있는 경량이며 엔드 투 엔드로 훈련 가능한 아키텍처를 개발한다.
  • 모델 효율성과 표현 품질을 향상시켜 UCF101와 같은 후행 데이터셋에서 더 나은 일반화 성능을 달성한다.

제안 방법

  • 국소적 공간-시간 특징 학습을 위해 N개의 연속된 RGB 프레임을 3N채널 텐서로 스택하여 슈퍼이미지를 구성한다.
  • 시퀀스 전반에 걸쳐 장거리 시간적 의존성을 모델링하기 위해 2D 특징 맵에 시간적 1D 합성곱을 적용한다.
  • 효율적인 시간 모델링을 위해 분리 가능한 디프 웨이즈 및 포인트 와이즈 1D 합성곱을 사용하는 시간 Xception 블록(TXB)을 도입한다.
  • 학습 안정성을 향상시키기 위해 LSTM/GRU와 같은 순환 아키텍처를 피하고, 엔드 투 엔드 확률적 경사 하강법(SGD) 최적화를 사용한다.
  • UCF101과 같은 더 작은 데이터셋으로의 전이를 위해 Kinetics600에서 사전 훈련을 통해 일반화 가능한 영상 표현을 학습한다.
  • 모델 예측을 해석하기 위해 클래스 활성화 맵(CAM)을 적용한다.

실험 결과

연구 질문

  • RQ1슈퍼이미지 기반 2D 합성곱 아키텍처가 영상에서 국소적 공간-시간 특징을 효과적으로 포착할 수 있는가?
  • RQ2전용 시간 합성곱 모듈(TXB)이 점수 평균화나 RNN보다 장거리 시간 역학을 더 잘 모델링하는가?
  • RQ3제안된 StNet 아키텍처가 FLOPs와 모델 복잡도를 줄이며 3D-CNN을 초월하는 정확도를 달성할 수 있는가?
  • RQ4학습된 표현이 UCF101와 같은 더 작은 데이터셋에서의 후행 행동 인식 작업에 얼마나 잘 일반화되는가?
  • RQ5시각화 결과에 따르면 모델이 행동 관련 공간-시간 영역에 얼마나 집중하는가?

주요 결과

  • StNet-IRv2는 439.57G FLOPs로 Kinetics600에서 78.99%의 top-1 정확도를 달성했으며, 3배 높은 FLOPs를 요구하는 P3D-ResNet152(71.31%)를 뛰어넘었다.
  • StNet-ResNet50는 오직 53G FLOPs로 69.85%의 top-1 정확도를 기록했으며, 유사한 계산 비용에서 C3D-ResNet50(64.65%)를 초월했다.
  • 10개의 코너 테스트를 적용한 StNet-ResNet50는 71.86%의 정확도를 달성했으며, 동일한 모델이 요구하는 1648.4G FLOPs보다 5배 이상 적은 FLOPs를 사용했다.
  • StNet-IRv2는 123G FLOPs로 UCF101에서 평균 클래스 정확도 95.7%를 기록했으며, 유사한 FLOP 제약 조건에서 RGB 모델 기준 새로운 최고 기록을 수립했다.
  • 시각화 결과 StNet는 포커에서 손, 눈썹 그림기록에서 눈썹 영역 등 행동 관련 영역에 집중하는 반면, TSN은 관련 없는 얼굴 영역을 활성화하는 것으로 나타났다.
  • 시간 Xception 블록은 효율적인 엔드 투 엔드 최적화를 가능하게 하며, 점수 평균화나 RNN보다 더 나은 시간 모델링 성능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.