[논문 리뷰] Self-supervised Video Representation Learning by Pace Prediction
속도 예측을 영상 표현 학습의 자기지도 사전 태스크로 제시하여 모션 채널 없이 학습하고, 대비 학습으로 강화하여 여러 백본에서 행동 인식 및 비디오 검색에서 최첨단 성능을 달성한다.
This paper addresses the problem of self-supervised video representation learning from a new perspective -- by video pace prediction. It stems from the observation that human visual system is sensitive to video pace, e.g., slow motion, a widely used technique in film making. Specifically, given a video played in natural pace, we randomly sample training clips in different paces and ask a neural network to identify the pace for each video clip. The assumption here is that the network can only succeed in such a pace reasoning task when it understands the underlying video content and learns representative spatio-temporal features. In addition, we further introduce contrastive learning to push the model towards discriminating different paces by maximizing the agreement on similar video content. To validate the effectiveness of the proposed method, we conduct extensive experiments on action recognition and video retrieval tasks with several alternative network architectures. Experimental evaluations show that our approach achieves state-of-the-art performance for self-supervised video representation learning across different network architectures and different benchmarks. The code and pre-trained models are available at https://github.com/laura-wang/video-pace.
연구 동기 및 목표
- 인간 지각과 유사한 비디오 속도 민감성을 이용한 자기지도 비디오 표현 학습의 동기를 부여한다.
- 다른 속도로 임의로 샘플링된 클립을 사용하여 시공간 특징을 학습하는 속도 예측 프리텍스트 태스크를 도입한다.
- 대조학습으로 속도 태스크를 강화하여 정규화하고 판별력을 향상시킨다.
- 행동 인식 및 비디오 검색에서 다중 백본(C3D, 3D-ResNet, R(2+1)D, S3D-G)을 대상으로 평가한다.
- 라벨이 없는 비디오 데이터로 확장 가능성과 방법의 효과를 보여준다.
제안 방법
- 라벨이 없는 비디오에서 다양한 재생 속도에서 비디오 클립을 샘플링하여 속도 예측 프리텍스트 태스크를 생성한다.
- 각 입력 클립에 적용된 속도를 분류하도록 3D CNN 백본을 학습시키고 교차 엔트로피 손실을 사용한다.
- 양성 쌍(동일 속도 또는 동일 맥락) 간의 일치를 최대화하고 음성 쌍을 구분하도록 대비 학습을 포함한다.
- 두 가지 대비 구성(configuration): 동일 맥락(콘텐츠 의식적)과 동일 속도(콘텐츠 무관)의 영향과 성능에 대한 영향을 조사한다.
- 가중합 목적 함수를 통해 속도 예측 손실과 대비 손실을 결합한다.
- 여러 백본(C3D, 3D-ResNet, R(2+1)D, S3D-G)과 행동 인식 및 비디오 검색과 같은 다운스트림 작업에서 평가한다.

실험 결과
연구 질문
- RQ1속도 기반 프리텍스트 태스크가 모션 채널 없이도 강력한 시공간 영상 표현을 학습하게 할 수 있는가?
- RQ2대조 학습을 추가하면 속도 예측으로 학습된 표현이 더 개선되는가?
- RQ3다양한 백본 아키텍처가 속도 기반 자기감독에 어떻게 반응하는가?
- RQ4동일 맥락 대 동일 속도 대비 전략이 다운스트림 성능에 미치는 영향은 무엇인가?
- RQ5라벨이 없는 데이터로 사전 학습했을 때 제안한 방법들이 표준 비디오 이해 벤치마크(행동 인식 및 검색)에서 어떤 성능을 보이는가?
주요 결과
- 속도 예측만으로도 여러 백본에서 무작위 초기화 대비 강력한 개선을 보인다.
- 대조 학습을 도입하면 성능이 더 향상되며, 많은 설정에서 동일 맥락 대비가 일반적으로 동일 속도 대비를 능가한다.
- R(2+1)D 백본과 속도 예측은 UCF101 및 HMDB51에서 평가된 구성들 중 최고 성능을 달성한다.
- 속도 예측과 맥락 기반 대비 학습의 조합은 최신 자기지도 방법들과 비교해 최첨단 혹은 경쟁력 있는 결과를 낳는다.
- 주의 시각화는 속도 기반 감독으로 학습될 때 모델이 모션 영역에 집중함을 나타내며 학습된 시공간 추론을 뒷받침한다.
- 이 방법은 오직 비디오 모달리티를 사용하여 행동 인식 및 비디오 검색 작업에서 강한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.