Skip to main content
QUICK REVIEW

[논문 리뷰] Self-Supervised Spatio-Temporal Representation Learning Using Variable Playback Speed Prediction

Hyeon Cho, Taehoon Kim|arXiv (Cornell University)|2020. 03. 05.
Human Pose and Action Recognition인용 수 30
한 줄 요약

이 논문은 레이블 없이 시간 동역학을 학습하기 위해 비디오 클립의 다양한 재생 속도를 예측하는 자기지도 학습 스펙트로-시공간 표현 학습 방법을 제안한다. 3D CNN을 사용해 클립의 재생 속도(정방향 및 역방향 포함)에 따라 정렬하도록 훈련하고, 계층별로 적용 가능한 시간 그룹 정규화를 도입함으로써, 행동 인식 벤치마크에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

We propose a self-supervised learning method by predicting the variable playback speeds of a video. Without semantic labels, we learn the spatio-temporal representation of the video by leveraging the variations in the visual appearance according to different playback speeds under the assumption of temporal coherence. To learn the spatio-temporal variations in the entire video, we have not only predicted a single playback speed but also generated clips of various playback speeds with randomized starting points. We then train a 3D convolutional network by solving the formulation that sorts the shuffled clips by their playback speed. In this case, the playback speed includes both forward and reverse directions; hence the visual representation can be successfully learned from the directional dynamics of the video. We also propose a novel layer-dependable temporal group normalization method that can be applied to 3D convolutional networks to improve the representation learning performance where we divide the temporal features into several groups and normalize each one using the different corresponding parameters. We validate the effectiveness of the proposed method by fine-tuning it to the action recognition task. The experimental results show that the proposed method outperforms state-of-the-art self-supervised learning methods in action recognition.

연구 동기 및 목표

  • 인간이 레이블링한 데이터 없이 비디오에서 강건한 시공간 표현을 학습하기 위해.
  • 시간적 일관성과 다양한 재생 속도에서의 시각적 외관 변화를 감독 신호로 활용하기 위해.
  • 앞서서도 뒤집힌 방향의 재생 동역학을 모두 모델링하여 3D CNN 학습을 향상시키기 위해.
  • 계층별로 적용 가능한 시간 그룹 정규화 방법을 통해 3D 컨볼루션의 특징 정규화를 향상시키기 위해.

제안 방법

  • 랜덤한 시작 지점과 다양한 재생 속도(역재생 포함)를 가진 비디오 클립을 생성하여 다양한 훈련 샘플을 만든다.
  • 섞인 클립을 재생 속도 순서로 정렬하도록 3D 컨볼루션 신경망을 훈련시어 대비 학습 목표를 형성한다.
  • 이 방법은 시간적 일관성을 활용한다: 다양한 재생 속도에서 일관된 시각적 변화는 표현 학습을 위한 감독 신호를 제공한다.
  • 새로운 계층별 적용 가능한 시간 그룹 정규화를 도입하여, 시간 특징을 계층별로 특수화된 파rameter로 그룹화하고 정규화함으로써 특징 품질을 향상시킨다.
  • 모델은 자기지도 방식으로 사전 훈련된 후, 최종 행동 인식 작업에서 미세조정된다.
  • 클립의 재생 속도에 따라 정렬하는 것을 다중 분류 문제로 간주하여 시간 동역학을 구별하는 데 학습한다.

실험 결과

연구 질문

  • RQ1다양한 재생 속도 예측이 비디오의 시공간 표현 학습을 위한 효과적인 자기지도 신호가 될 수 있는가?
  • RQ2앞서서도 뒤집힌 재생 방향을 모두 모델링함으로써 시간 동역학 학습이 어떻게 향상되는가?
  • RQ3계층별 적용 가능한 시간 그룹 정규화 방법이 3D CNN에서 표현 학습을 얼마나 향상시키는가?
  • RQ4기존 자기지도 방법과 비교해 제안된 방법이 행동 인식 벤치마크에서 최신 기술 수준의 성능을 달성하는가?

주요 결과

  • 제안된 방법은 행동 인식 벤치마크에서 최신 기술 수준의 자기지도 학습 방법을 초월한다.
  • 역재생 속도의 포함으로 인해 모델이 비디오 시퀀스의 방향성 동역학을 더 잘 포착할 수 있게 되었다.
  • 계층별 적용 가능한 시간 그룹 정규화 방법이 특징 표현 품질을 향상시켜 성능 향상에 기여한다.
  • 표준 행동 인식 데이터셋에서 강력한 제로샷 및 미세조정 성능을 달성하여 일반화 능력을 입증한다.
  • 자기지도 사전 훈련 전략이 인간이 레이블링한 데이터가 전혀 필요 없이도 시공간 특징을 효과적으로 학습한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.