Skip to main content
QUICK REVIEW

[논문 리뷰] Self-Supervised Spatiotemporal Feature Learning via Video Rotation Prediction

Longlong Jing, Xiaodong Yang|arXiv (Cornell University)|2018. 11. 28.
Human Pose and Action Recognition참고 문헌 61인용 수 143
한 줄 요약

이 논문은 회전 변환을 예측하여 시공간 비디오 특징을 학습하는 완전 자기지도 3D CNN인 3DRotNet을 소개한다. 작은 데이터셋에서 행동 인식으로의 강한 전이 가능성을 보여준다.

ABSTRACT

The success of deep neural networks generally requires a vast amount of training data to be labeled, which is expensive and unfeasible in scale, especially for video collections. To alleviate this problem, in this paper, we propose 3DRotNet: a fully self-supervised approach to learn spatiotemporal features from unlabeled videos. A set of rotations are applied to all videos, and a pretext task is defined as prediction of these rotations. When accomplishing this task, 3DRotNet is actually trained to understand the semantic concepts and motions in videos. In other words, it learns a spatiotemporal video representation, which can be transferred to improve video understanding tasks in small datasets. Our extensive experiments successfully demonstrate the effectiveness of the proposed framework on action recognition, leading to significant improvements over the state-of-the-art self-supervised methods. With the self-supervised pre-trained 3DRotNet from large datasets, the recognition accuracy is boosted up by 20.4% on UCF101 and 16.7% on HMDB51 respectively, compared to the models trained from scratch.

연구 동기 및 목표

  • 대규모 비디오 데이터셋의 레이블 비용으로 인해 라벨이 없는 상태에서 비디오 표현을 학습하는 것을 동기화한다.
  • 공간 및 시간 비디오 신호를 공동으로 캡처하기 위해 회전 예측 프리텍스트 태스크를 제안한다.
  • 자기지도 사전학습이 작은 데이터셋에서 다운스트림 행동 인식 성능을 향상시킨다는 것을 입증한다.
  • 회전 예측에서 학습된 특징이 서로 다른 데이터셋과 작업 간에 효과적으로 전달된다는 것을 보여준다.

제안 방법

  • 공간-시간 특징을 학습하기 위해 3D ResNet-18 백본을 사용한다.
  • 각 비디오 클립에 네 가지 이산 회전(0°, 90°, 180°, 270°) 을 적용한다.
  • 적용된 회전을 예측하도록 F를 분류 objective(교차 엔트로피) 또는 회귀(선택적)로 학습한다.
  • 크게 라벨이 없는 비디오 데이터셋(Kinetics, Moment in Time)에서 사전학습하고 행동 인식 태스크로 전달한다.
  • UCF101 및 HMDB51에서 학습된 특징을 미세조정하여 전달 성능을 평가한다.

실험 결과

연구 질문

  • RQ1라벨이 없는 프리텍스트 태스크를 해결함으로써 3D CNN이 의미 있는 시공간 비디오 표현을 학습할 수 있는가?
  • RQ2자가지도 특징이 scratch 학습 및 다른 자기지도 방법과 비교하여 작은 데이터셋에서 행동 인식으로 효과적으로 전달되는가?
  • RQ3회전 수, 입력 모달리티(RGB 대 DIF), 클립 길이와 같은 요소가 학습된 표현과 전달 성능에 어떤 영향을 미치는가?

주요 결과

방법UCF101 정확도 (%)HMDB51 정확도 (%)
C3D (Sport-1M)82.3
3DResNet-18 (Kinetics)84.456.4
P3D (Kinetics)84.4
ObjectPatch42.715.6
TemporalCoherency45.415.9
ShuffleLearn50.919.8
GeometryGuided54.122.6
AOT55.3
OPN56.322.1
CrossLearn58.727.2
O3N60.332.5
3D AE48.7
3D AE + future50.1
3D inpainting50.9
VideoGAN52.1
3DCubicPuzzle65.833.7
Ours-RGB66.037.1
Ours-DIF74.342.5
Ours-Fusion76.647.0
  • Kinetics/Moment in Time에서 회전 예측으로 사전학습하면 scratch 대비 크게 향상: 전이 후 UCF101에서 +20.4 포인트, HMDB51에서 +16.7 포인트.
  • 회전 예측 태스크는 공간적·시간적 신호를 모두 학습할 수 있게 하고, 주의 맵은 감독 모델과 비슷하게 이동하는 피사체에 포커스를 보인다.
  • 3DRotNet-RGB, -DIF, 및 -Fusion 변형은 UCF101과 HMDB51 모두에서 이전 자기지도 방법을 능가하며, Fusion은 76.6% (UCF101) 및 47.0% (HMDB51) 를 달성한다.
  • 더 긴 입력 클립과 DIF(차이 프레임)는 더 강한 시간 신호를 제공해 행동 인식 성능을 향상시킨다.
  • 사전학습 중 더 많은 회전(4개 회전)이 더 적은 회전보다 전달이 좋으며; 8/360도 설정은 4-회전 구성보다 좋지 않았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.