QUICK REVIEW

[논문 리뷰] Human Action Recognition using Factorized Spatio-Temporal Convolutional Networks

Lin Sun, Kui Jia|arXiv (Cornell University)|2015. 10. 02.

Human Pose and Action Recognition참고 문헌 30인용 수 112

한 줄 요약

이 논문은 3D 컨볼루션을 순차적인 2D 공간 및 1D 시간 컨볼루션으로 분해함으로써 모델 복잡도를 감소시키고 학습 효율성을 향상시키는 깊이 있는 아키텍처인 인자 분해된 시공간 컨볼루션 네트워크(FSTCN)를 제안한다. FSTCN는 보조 학습 데이터 없이 UCF-101과 HMDB-51에서 최신 기술 수준의 성능을 달성하며, 이중 스트림 CNN보다 평균적으로 1% 높은 성능을 보이며 추가 비디오 데이터를 사용하는 방법과 동등하거나 이를 초월한다.

ABSTRACT

Human actions in video sequences are three-dimensional (3D) spatio-temporal signals characterizing both the visual appearance and motion dynamics of the involved humans and objects. Inspired by the success of convolutional neural networks (CNN) for image classification, recent attempts have been made to learn 3D CNNs for recognizing human actions in videos. However, partly due to the high complexity of training 3D convolution kernels and the need for large quantities of training videos, only limited success has been reported. This has triggered us to investigate in this paper a new deep architecture which can handle 3D signals more effectively. Specifically, we propose factorized spatio-temporal convolutional networks (FstCN) that factorize the original 3D convolution kernel learning as a sequential process of learning 2D spatial kernels in the lower layers (called spatial convolutional layers), followed by learning 1D temporal kernels in the upper layers (called temporal convolutional layers). We introduce a novel transformation and permutation operator to make factorization in FstCN possible. Moreover, to address the issue of sequence alignment, we propose an effective training and inference strategy based on sampling multiple video clips from a given action video sequence. We have tested FstCN on two commonly used benchmark datasets (UCF-101 and HMDB-51). Without using auxiliary training videos to boost the performance, FstCN outperforms existing CNN based methods and achieves comparable performance with a recent method that benefits from using auxiliary training videos.

연구 동기 및 목표

인간 행동 인식에서 3D CNN의 높은 계산 복잡도와 데이터 의존성 문제를 해결하기 위해.
3D 컨볼루션을 공간 및 시간 단계로 분해함으로써 시공간 특징 학습을 향상시키기 위해.
인간 행동의 시퀀스 정렬 문제와 내부 카테고리 변동성 문제를 극복하기 위해.
보조 학습 비디오에 의존하지 않고도 높은 정확도를 달성하는 깊이 있는 아키텍처를 개발하기 위해.
새로운 인자 분해 및 순열 기반 메커니즘을 통해 효과적인 엔드 투 엔드 시공간 특징 학습을 가능하게 하기 위해.

제안 방법

FSTCN는 두 단계로 구성된 계단식 아키텍처를 사용한다: 2D 공간 특징 학습을 위한 공간 컨볼루션 레이어(SCL), 그 다음 1D 시간 특징 학습을 위한 시간 컨볼루션 레이어(TCL).
새로운 변환 및 순열 연산자(T-P 연산자)를 통해 3D 커널을 분리 가능한 2D 및 1D 구성요소로 인자 분해할 수 있도록 한다.
모델은 각 비디오에서 다수의 클립을 추출하는 샘플링 기반 학습 및 추론 전략을 사용하여 다양한 행동 속도에 대응하고 강건성을 향상시킨다.
SCL와 TCL의 특징는 최종 분류기 레이어 이전에 연결되어 공간적 외형과 운동 역학을 통합한다.
역전파를 통해 시각화된 정밀도 맵은 학습된 필터가 얼굴 행동의 경우 입술과 같이 의미적으로 관련된 영역에 집중하고 있음을 확인한다.
t-SNE를 사용하여 특징 임bedding을 시각화하였으며, 이는 시공간 특징이 공간적 또는 시간적 특징만 사용할 때보다 더 구분력이 뛰어나다는 것을 보여준다.

실험 결과

연구 질문

RQ13D 컨볼루션을 2D 공간 및 1D 시간 컨볼루션으로 분해함으로써 모델 복잡도를 감소시키면서 성능을 유지하거나 향상시킬 수 있는가?
RQ2제안된 T-P 연산자가 딥 러닝 프레임워크 내에서 3D 커널의 효과적이고 안정적인 인자 분해를 가능하게 하는가?
RQ3FSTCN 아키텍처는 보조 학습 비디오 없이도 표준 벤치마크에서 높은 정확도를 달성할 수 있는가?
RQ4결합된 공간적 및 시간적 특징은 개별 공간적 또는 시간적 특징에 비해 구분력이 얼마나 뛰어나게 되는가?
RQ5클립 샘플링 전략이 다양한 행동 속도 및 시퀀스 정렬 문제에 대응하여 강건성을 얼마나 향상시키는가?

주요 결과

FSTCN는 평균 융합을 사용하여 UCF-101에서 87.9%의 평균 정확도, HMDB-51에서 58.6%의 정확도를 달성하며, 보조 데이터 없이도 이중 스트림 CNN보다 둘 다 1% 높은 성능을 보였다.
SVM 기반 점수 융합을 사용할 경우, FSTCN는 UCF-101에서 88.1%, HMDB-51에서 59.1%의 정확도를 기록하였으며, 추가 학습 비디오를 사용하는 방법과 동등하거나 이를 초월하는 성능을 보였다.
t-SNE 시각화 결과, FSTCN가 학습한 시공간 특징은 공간적 특징 또는 시간적 특징만 사용할 때보다 더 구분력이 뛰어나며, 특히 '웃다' 또는 '씹다'와 같은 미세한 행동에서 두드러진다.
정밀도 맵은 모델이 얼굴 행동의 경우 입술과 같이 관련된 행동 영역에 집중하고 있음을 확인하며, 효과적인 주의 집중 학습이 이루어졌음을 시사한다.
인자 분해 설계는 커널 복잡도를 크게 감소시켜 제한된 비디오 데이터로도 효과적인 학습이 가능하게 하며, 도전적인 벤치마크에서 강력한 일반화 능력을 보였다.
제거 실험 결과, SCL와 TCL의 조합이 필수적임을 확인하였으며, 각 구성요소가 상호 보완적으로 작용하여 전체 성능 향상에 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.