QUICK REVIEW

[논문 리뷰] StNet: Local and Global Spatial-Temporal Modeling for Action Recognition

Dongliang He, Zhichao Zhou|arXiv (Cornell University)|2018. 11. 05.

Human Pose and Action Recognition참고 문헌 34인용 수 23

한 줄 요약

StNet는 3N채널 슈퍼이미지와 시간 Xception 블록을 통해 국소적 공간-시간 특징과 전역 역학을 모델링하는 새로운 2D+시간 합성곱 구조를 제안한다. 이는 3D-CNN과 비교해 5배 적은 FLOPs로 Kinetics600에서 최고 성능인 78.99% top-1 정확도를 달성했으며, UCF101에서 Inception-ResNet-V2를 사용한 전이 학습 시 95.7%의 정확도를 기록했다.

ABSTRACT

Despite the success of deep learning for static image understanding, it remains unclear what are the most effective network architectures for the spatial-temporal modeling in videos. In this paper, in contrast to the existing CNN+RNN or pure 3D convolution based approaches, we explore a novel spatial temporal network (StNet) architecture for both local and global spatial-temporal modeling in videos. Particularly, StNet stacks N successive video frames into a \emph{super-image} which has 3N channels and applies 2D convolution on super-images to capture local spatial-temporal relationship. To model global spatial-temporal relationship, we apply temporal convolution on the local spatial-temporal feature maps. Specifically, a novel temporal Xception block is proposed in StNet. It employs a separate channel-wise and temporal-wise convolution over the feature sequence of video. Extensive experiments on the Kinetics dataset demonstrate that our framework outperforms several state-of-the-art approaches in action recognition and can strike a satisfying trade-off between recognition accuracy and model complexity. We further demonstrate the generalization performance of the leaned video representations on the UCF101 dataset.

연구 동기 및 목표

대규모 행동 인식을 위한 영상에서 효과적인 공간-시간 모델링에 도전한다.
CNN+RNN 및 3D-CNN 아키텍처의 한계, 예를 들어 학습 불안정성과 높은 계산 비용을 해결한다.
국소적 및 전역 공간-시간 역학을 동시에 모델링할 수 있는 경량이며 엔드 투 엔드로 훈련 가능한 아키텍처를 개발한다.
모델 효율성과 표현 품질을 향상시켜 UCF101와 같은 후행 데이터셋에서 더 나은 일반화 성능을 달성한다.

제안 방법

국소적 공간-시간 특징 학습을 위해 N개의 연속된 RGB 프레임을 3N채널 텐서로 스택하여 슈퍼이미지를 구성한다.
시퀀스 전반에 걸쳐 장거리 시간적 의존성을 모델링하기 위해 2D 특징 맵에 시간적 1D 합성곱을 적용한다.
효율적인 시간 모델링을 위해 분리 가능한 디프 웨이즈 및 포인트 와이즈 1D 합성곱을 사용하는 시간 Xception 블록(TXB)을 도입한다.
학습 안정성을 향상시키기 위해 LSTM/GRU와 같은 순환 아키텍처를 피하고, 엔드 투 엔드 확률적 경사 하강법(SGD) 최적화를 사용한다.
UCF101과 같은 더 작은 데이터셋으로의 전이를 위해 Kinetics600에서 사전 훈련을 통해 일반화 가능한 영상 표현을 학습한다.
모델 예측을 해석하기 위해 클래스 활성화 맵(CAM)을 적용한다.

실험 결과

연구 질문

RQ1슈퍼이미지 기반 2D 합성곱 아키텍처가 영상에서 국소적 공간-시간 특징을 효과적으로 포착할 수 있는가?
RQ2전용 시간 합성곱 모듈(TXB)이 점수 평균화나 RNN보다 장거리 시간 역학을 더 잘 모델링하는가?
RQ3제안된 StNet 아키텍처가 FLOPs와 모델 복잡도를 줄이며 3D-CNN을 초월하는 정확도를 달성할 수 있는가?
RQ4학습된 표현이 UCF101와 같은 더 작은 데이터셋에서의 후행 행동 인식 작업에 얼마나 잘 일반화되는가?
RQ5시각화 결과에 따르면 모델이 행동 관련 공간-시간 영역에 얼마나 집중하는가?

주요 결과

StNet-IRv2는 439.57G FLOPs로 Kinetics600에서 78.99%의 top-1 정확도를 달성했으며, 3배 높은 FLOPs를 요구하는 P3D-ResNet152(71.31%)를 뛰어넘었다.
StNet-ResNet50는 오직 53G FLOPs로 69.85%의 top-1 정확도를 기록했으며, 유사한 계산 비용에서 C3D-ResNet50(64.65%)를 초월했다.
10개의 코너 테스트를 적용한 StNet-ResNet50는 71.86%의 정확도를 달성했으며, 동일한 모델이 요구하는 1648.4G FLOPs보다 5배 이상 적은 FLOPs를 사용했다.
StNet-IRv2는 123G FLOPs로 UCF101에서 평균 클래스 정확도 95.7%를 기록했으며, 유사한 FLOP 제약 조건에서 RGB 모델 기준 새로운 최고 기록을 수립했다.
시각화 결과 StNet는 포커에서 손, 눈썹 그림기록에서 눈썹 영역 등 행동 관련 영역에 집중하는 반면, TSN은 관련 없는 얼굴 영역을 활성화하는 것으로 나타났다.
시간 Xception 블록은 효율적인 엔드 투 엔드 최적화를 가능하게 하며, 점수 평균화나 RNN보다 더 나은 시간 모델링 성능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.