QUICK REVIEW

[논문 리뷰] Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification

Ali Diba, Mohsen Fayyaz|arXiv (Cornell University)|2017. 11. 22.

Human Pose and Action Recognition참고 문헌 30인용 수 187

한 줄 요약

논문은 다중 스케일 시간 역학을 포착하기 위한 Temporal 3D ConvNets(T3D)와 Temporal Transition Layer(TTL)를 소개하고, DenseNet를 DenseNet3D로 확장하며, 2D에서 3D로의 감독 전이(surprise transfer)를 제안하여 데이터가 제한된 상황에서도 안정적인 가중치 초기화와 더 나은 성능을 가능하게 한다. HMDB51과 UCF101에서 최첨단 결과를 달성하고 Kinetics에서도 경쟁력 있는 성능을 보인다.

ABSTRACT

The work in this paper is driven by the question how to exploit the temporal cues available in videos for their accurate classification, and for human action recognition in particular? Thus far, the vision community has focused on spatio-temporal approaches with fixed temporal convolution kernel depths. We introduce a new temporal layer that models variable temporal convolution kernel depths. We embed this new temporal layer in our proposed 3D CNN. We extend the DenseNet architecture - which normally is 2D - with 3D filters and pooling kernels. We name our proposed video convolutional network `Temporal 3D ConvNet'~(T3D) and its new temporal layer `Temporal Transition Layer'~(TTL). Our experiments show that T3D outperforms the current state-of-the-art methods on the HMDB51, UCF101 and Kinetics datasets. The other issue in training 3D ConvNets is about training them from scratch with a huge labeled dataset to get a reasonable performance. So the knowledge learned in 2D ConvNets is completely ignored. Another contribution in this work is a simple and effective technique to transfer knowledge from a pre-trained 2D CNN to a randomly initialized 3D CNN for a stable weight initialization. This allows us to significantly reduce the number of training samples for 3D CNNs. Thus, by finetuning this network, we beat the performance of generic and recent methods in 3D CNNs, which were trained on large video datasets, e.g. Sports-1M, and finetuned on the target datasets, e.g. HMDB51/UCF101. The T3D codes will be released

연구 동기 및 목표

동영상을 활용한 시간적 단서를 이용해 행동 인식을 개선하려는 동기를 제시한다.
3D CNN 내에서 가변 시간 깊이를 모델링하는 아키텍처를 개발한다.
짧은, 중간 및 긴 범위의 시계열 다이나믹스를 포착하기 위해 DenseNet을 3D로 확장하고 새로운 TTL을 도입한다.
사전 학습된 2D CNN에서 임의로 초기화된 3D CNN으로의 크로스-아키텍처 전이 학습 방법을 도입해 학습을 용이하게 한다.
HMDB51, UCF101, Kinetics에서 성능과 전이 가능성을 입증한다.

제안 방법

3D 컨볼루션 프레임워크에서 다양한 시간 깊이의 특징을 연결(concatenate)하는 Temporal Transition Layer(TTL)를 도입한다.
DenseNet의 3D 확장(DenseNet3D)을 통해 densely connected 블록 간의 3D 필터와 풀링 커널을 사용한다.
DenseNet3D에 TTL을 통합하여 짧은, 중간, 긴 범위의 시간 역학을 학습하는 Temporal 3D ConvNets(T3D)를 형성한다.
이미지-비디오 프레임/클립 쌍을 이미지-비디오 대응 작업을 통해 정렬하여 2D CNN( ImageNet)에서 훈련한 지식을 무작위로 초기화된 3D CNN으로 감독 전이하는 방법을 제안한다.
Kinetics에서 처음부터 T3D를 학습시키고 대상 데이터셋(UCF101, HMDB51)에 대해 미세조정한다; RGB 입력만 사용하는 다른 3D CNN과 비교한다.
2D에서 3D로의 전이 전략이 안정적인 가중치 초기화를 제공하고 작은 데이터셀에서 데이터 효율적 학습을 개선함을 보여준다.

실험 결과

연구 질문

RQ1 fixed 커널 깊이가 없는 상태에서도 3D CNN이 장기 시간 정보를 포착할 수 있는가?
RQ2가변 깊이 커널을 가진 TTL이 고정 깊이 3D 컨볼루션보다 행동 인식에서 더 우수한가?
RQ32D CNN이 학습한 지식을 3D CNN으로 전이하여 큰 라벨이 있는 비디오 데이터셋의 필요성을 줄일 수 있는가?
RQ4T3D가 HMDB51, UCF101, Kinetics에서 최첨단 3D ConvNet에 비해 어떤 성능을 보이는가?
RQ5어떤 입력 구성(프레임 속도, 해상도)이 3D 비디오 아키텍처를 가장 잘 지원하는가?

주요 결과

TTL이 있는 T3D가 HMDB51 및 UCF101에서 최첨단 3D ConvNet보다 더 나은 성능을 보이며 Kinetics에서도 경쟁력 있다.
2D 프리트레인 CNN이 임의 초기화된 3D CNN에 안정적 초기화를 제공하는 교사 역할을 할 수 있어 대규모 비디오 데이터셋 없이도 효과적인 전이 학습이 가능하다.
UCF101에서 처음부터 학습될 때 TTL이 있는 T3D가 DenseNet3D 및 다른 3D 아키텍처보다 더 높은 정확도를 보인다.
프레임 해상도와 샘플링 속도는 성능에 크게 영향을 미치며, 224x224 프레임과 스트라이드 2가 더 작은 프레임이나 더 큰 스트라이드보다 더 나은 결과를 제공한다.
전이 학습(2D→3D)은 UCF101 및 HMDB51에서 성능을 향상시키며, 대형 비디오 데이터셋으로 학습하고 대상에 대해 파인튜닝된 모델과 맞먹거나 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.