Skip to main content
QUICK REVIEW

[논문 리뷰] Spatiotemporal Contrastive Video Representation Learning

Rui Qian, Tianjian Meng|arXiv (Cornell University)|2020. 08. 09.
Human Pose and Action Recognition참고 문헌 76인용 수 84
한 줄 요약

자기지도 대비 학습 프레임워크 CVRL이 비디오에서 시간적으로 일관된 공간 증강과 샘플링 기반의 시간 증강을 함께 활용하여 라벨이 없는 비디오로부터 강력한 시공간 표현을 학습하고, 선형 탐지기 및 다운스트림 태스크로 평가합니다.

ABSTRACT

We present a self-supervised Contrastive Video Representation Learning (CVRL) method to learn spatiotemporal visual representations from unlabeled videos. Our representations are learned using a contrastive loss, where two augmented clips from the same short video are pulled together in the embedding space, while clips from different videos are pushed away. We study what makes for good data augmentations for video self-supervised learning and find that both spatial and temporal information are crucial. We carefully design data augmentations involving spatial and temporal cues. Concretely, we propose a temporally consistent spatial augmentation method to impose strong spatial augmentations on each frame of the video while maintaining the temporal consistency across frames. We also propose a sampling-based temporal augmentation method to avoid overly enforcing invariance on clips that are distant in time. On Kinetics-600, a linear classifier trained on the representations learned by CVRL achieves 70.4% top-1 accuracy with a 3D-ResNet-50 (R3D-50) backbone, outperforming ImageNet supervised pre-training by 15.7% and SimCLR unsupervised pre-training by 18.8% using the same inflated R3D-50. The performance of CVRL can be further improved to 72.9% with a larger R3D-152 (2x filters) backbone, significantly closing the gap between unsupervised and supervised video representation learning. Our code and models will be available at https://github.com/tensorflow/models/tree/master/official/.

연구 동기 및 목표

  • 라벨이 없는 데이터에서 강력한 비디오 표현 학습 motivate.
  • 공간 및 시간 증강이 자기지도 비디오 학습에 어떤 영향을 미치는지 조사합니다.
  • 시간 일관성을 유지하면서 유용한 불변성을 강화하는 증강 전략을 개발합니다.
  • 더 큰 백본과 더 많은 데이터로 확장 가능성을 보여 Supervised 비디오 프리트레이닝과의 격차를 줄입니다.

제안 방법

  • 대조 손실(InfoNCE)을 사용하여 같은 비디오에서 추출된 두 개의 증강된 클립을 함께 끌어당기고 서로 다른 비디오의 클립은 서로 멀어지게 합니다.
  • 클립을 3D-ResNet 백본(R3D-50을 기본값)으로 인코딩하고 대조 학습을 위한 128차원 특징을 산출하는 프로젝션 헤드를 사용합니다.
  • 프레임 간 고정된 난수를 적용하여 동작 단서를 보존하는 시간적으로 일관된 공간 증강을 설계합니다.
  • 두 클립 사이의 시간 간격이 단조롭게 감소하는 분포를 따르는 샘플링 기반의 시간 증강을 구현하여 근 temporality 클립을 강조합니다.
  • 대규모 미니배치와 동기화된 배치 정규화를 사용하여 학습하고, 고정된 백본에 대한 선형 탐지기로 평가하며 준지도 학습 및 다운스트림 태스크에 대해 미세조정합니다.

실험 결과

연구 질문

  • RQ1공간-시간 증강이 공간 만 증강이나 시간 만 사용하는 신호보다 자기지도 비디오 표현 학습을 향상시킬 수 있는가?
  • RQ2시간 역학을 보존하면서 강력한 공간 불변성을 가능하게 하는 최적의 증강 전략은 무엇인가?
  • RQ3더 큰 백본과 더 많은 무라벨 데이터로 CVRL은 표준 비디오 벤치마크에서 어떻게 확장되는가?
  • RQ4CVRL 표현은 준지도 학습, 동작 분류, 탐지 태스크로 어떻게 이전되는가?

주요 결과

  • CVRL은 선형 평가에서 상당한 이점을 제공합니다. 예를 들어 R3D-50과 함께 Kinetics-600에서 top-1 70.4%, R3D-152에서 72.9%를 달성하며 감독 방법과의 격차를 줄입니다.
  • 동일하게 팽창된 3D 백본에서 ImageNet- inflated 및 SimCLR-inflated 기준보다 CVRL이 우수하며, K400에서 선형 평가 시 ImageNet 사전학습 대비 15% 이상, SimCLR 대비 18.8% 차이를 넘습니다.
  • 시간적으로 일관된 공간 증강과 단조 감소하는 시간 샘플링 분포를 결합하면 큰 성능 향상을 얻습니다(예: CVRL의 63.8% top-1 vs 시간 일관성 없는 두 증강을 모두 사용했을 때 52.3%).
  • 더 많은 데이터와 더 큰 백본은 CVRL 성능을 지속적으로 향상시킵니다(예: 200에서 800 프리트레이닝 에포크, K400/K600에서 강력한 결과를 보여주는 R3D-152).
  • 다운스트림 태스크에서 CVRL은 UCF-101, HMDB-51, AVA 동작 탐지에서 경쟁력 있거나 강한 결과를 달성하며, 단일 모드 기반의 성능을 능가하거나 멀티모달 벤치마크와의 등가성을 보이는 경우가 많습니다(K400–K600에서 프리트레이드 시).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.