QUICK REVIEW

[논문 리뷰] Would Mega-scale Datasets Further Enhance Spatiotemporal 3D CNNs?

Hirokatsu Kataoka, Tenga Wakamiya|arXiv (Cornell University)|2020. 04. 10.

Human Pose and Action Recognition참고 문헌 31인용 수 82

한 줄 요약

본 논문은 메가 스케일, 신중하게 주석된 비디오 데이터셋(사전학습)과 데이터셋 병합이 시공간 3D CNN의 전이 학습 성능에 미치는 영향을 연구하고, 표준 벤치마크에서의 이득과 매우 깊은 모델의 깊이 한계를 보여준다.

ABSTRACT

How can we collect and use a video dataset to further improve spatiotemporal 3D Convolutional Neural Networks (3D CNNs)? In order to positively answer this open question in video recognition, we have conducted an exploration study using a couple of large-scale video datasets and 3D CNNs. In the early era of deep neural networks, 2D CNNs have been better than 3D CNNs in the context of video recognition. Recent studies revealed that 3D CNNs can outperform 2D CNNs trained on a large-scale video dataset. However, we heavily rely on architecture exploration instead of dataset consideration. Therefore, in the present paper, we conduct exploration study in order to improve spatiotemporal 3D CNNs as follows: (i) Recently proposed large-scale video datasets help improve spatiotemporal 3D CNNs in terms of video classification accuracy. We reveal that a carefully annotated dataset (e.g., Kinetics-700) effectively pre-trains a video representation for a video classification task. (ii) We confirm the relationships between #category/#instance and video classification accuracy. The results show that #category should initially be fixed, and then #instance is increased on a video dataset in case of dataset construction. (iii) In order to practically extend a video dataset, we simply concatenate publicly available datasets, such as Kinetics-700 and Moments in Time (MiT) datasets. Compared with Kinetics-700 pre-training, we further enhance spatiotemporal 3D CNNs with the merged dataset, e.g., +0.9, +3.4, and +1.1 on UCF-101, HMDB-51, and ActivityNet datasets, respectively, in terms of fine-tuning. (iv) In terms of recognition architecture, the Kinetics-700 and merged dataset pre-trained models increase the recognition performance to 200 layers with the Residual Network (ResNet), while the Kinetics-400 pre-trained model cannot successfully optimize the 200-layer architecture.

연구 동기 및 목표

표준 비디오 벤치마크에서 미세 조정으로의 전이가 가장 잘 일어나는 대규모 사전 학습 데이터셋을 평가한다.
사전 학습의 카테고리 수와 인스턴스 수가 성능에 미치는 영향을 검토한다.
간단한 데이터셋 병합을 통해 사전 학습 데이터를 늘리고 그 영향력을 평가한다.
다른 사전 학습 규칙에서 3D CNN의 심층도(레이어 수)를 늘리는 효과를 탐구한다.
메가 스케일 사전 학습하에 3D-ResNet과 (2+1)D 아키텍처를 비교한다.

제안 방법

3D-ResNet 변형을 Kinetics-700, MiT, STAIR, Mini-HVU 데이터세트에서 사전 학습한다.
전이 성능을 측정하기 위해 UCF-101, HMDB-51, ActivityNet에서 미세 조정한다.
정량적으로 #category와 #instance를 달리며 데이터 양이 정확도에 미치는 영향을 연구한다.
병합된 사전 학습 데이터셋(K+M, K+M+S 등)을 생성하고 단일 데이터셋 사전 학습과 비교한다.
모델 깊이(ResNet-18에서 ResNet-200까지)를 평가하고 3D-ResNet과 (2+1)D 변형을 비교한다.
광학 흐름 스트림이 있는 경우와 없는 경우의 결과를 비교한다(참고: 본 연구는 단일 스트림 입력을 가진 3D CNN에 초점을 맞춘다).

실험 결과

연구 질문

RQ13D-CNN에 대해 어떤 사전 학습 데이터셋이 표준 비디오 인식 벤치마크로의 전달에 가장 잘 작용하는가?
RQ2사전 학습에서 카테고리 수와 인스턴스 수가 전달 정확도에 어떤 영향을 미치는가?
RQ3공개 비디오 데이터셋을 단순히 병합하여 더 큰 사전 학습 세트를 형성하는 것이 미세 조정 성능을 향상시키는가?
RQ4다양한 사전 학습 규정에서 모델 깊이를 늘리는 것이 전이 성능에 어떻게 영향을 미치는가?

주요 결과

Kinetics-700 사전 학습은 UCF-101, HMDB-51, ActivityNet에서 단일 데이터셋 사전 학습 옵션 중 최고의 전이 성능을 얻는다(동일하게 top-1 비디오 수준 정확도).
Kinetics-700과 MiT을 병합한 K+M은 미세 조정 결과를 더 개선한다. 예: Kinetics-700 baseline 대비 UCF-101 +0.9, HMDB-51 +3.4, ActivityNet +1.1 이득.
더 깊은 3D-ResNet(예: ResNet-200)은 Kinetics-700 및 K+M 사전 학습으로 이익을 얻어 UCF-101, HMDB-51, ActivityNet에서 더 높은 정확도를 달성하지만 Kinetics-400 사전 학습은 매우 깊은 모델에 일관되게 이익을 주지 않는다.
RGB-전용 3D CNN 및 그들 2+1D 버전은 더 크고 잘 주석된 데이터셋에서 사전 학습할 때 더 강한 전이를 보인다; 단순히 데이터 크기를 늘리는 것이 항상 도움이 되지는 않다(도메인 불일치가 발생할 수 있음).
도표 표의 결과들은 사전 학습 선택에 따른 구체적 이득을 보여준다. 예: R3D-50 with Kinetics-700: UCF-101 92.0, HMDB-51 66.0, ActivityNet 75.9; with K+M: 92.9, 69.4, 77.0; R(2+1)D-50 with Kinetics-700: 93.4, 69.4, 78.4.
이 설정에서 Kinetics-700 데이터셋은 일반적으로 MiT나 STAIR 같은 다른 단일 데이터셋보다 전이 학습에 더 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.