[논문 리뷰] Video Representation Learning with Visual Tempo Consistency
논문은 계층적 대조학습으로 시각적 템포 일관성(VTHCL)을 도입하여 서로 다른 속도로 같은 동작 인스턴스를 통해 자가 지도 학습 비디오 표현을 학습하고, 느린 템포와 빠른 템포 사이의 유사성을 강제함으로써 경쟁력 있는 액션 인식 성능과 타 작업으로의 양호한 전이, 해석을 위한 인스턴스 대응 맵을 제공한다.
Visual tempo, which describes how fast an action goes, has shown its potential in supervised action recognition. In this work, we demonstrate that visual tempo can also serve as a self-supervision signal for video representation learning. We propose to maximize the mutual information between representations of slow and fast videos via hierarchical contrastive learning (VTHCL). Specifically, by sampling the same instance at slow and fast frame rates respectively, we can obtain slow and fast video frames which share the same semantics but contain different visual tempos. Video representations learned from VTHCL achieve the competitive performances under the self-supervision evaluation protocol for action recognition on UCF-101 (82.1\%) and HMDB-51 (49.2\%). Moreover, comprehensive experiments suggest that the learned representations are generalized well to other downstream tasks including action detection on AVA and action anticipation on Epic-Kitchen. Finally, we propose Instance Correspondence Map (ICM) to visualize the shared semantics captured by contrastive learning.
연구 동기 및 목표
- 비주얼 템포가 비디오 표현 학습을 위한 자기지도 신호로 작용할 수 있음을 입증한다.
- 다중 네트워크 깊이에서 템포에 의해 유도된 의미를 활용하기 위한 계층적 대조학습 프레임워크를 제안한다.
- UCF-101 및 HMDB-51에서 경쟁적인 액션 인식 결과를 보이고 AVA 탐지 및 Epic-Kitchen 예측으로의 전이성을 보인다.
- ICM(인스턴스 대응 맵)을 통해 학습된 표현을 해석하고 공유된 인스턴스 의미를 밝힌다.]
- method_추가
제안 방법
- 같은 동작 인스턴스에서 느린 영상 인코더와 빠른 영상 인코더를 사용해 서로 다른 템포에서 표현을 추출한다.
- 빠른 표현과 느린 표현 간의 상호정보를 최대화하도록 대조학습을 적용하되, 다른 인스턴스를 네거티브로 사용한다.
- 다층 특징(res3, res4, res5 등) 및 각 깊이에 대응하는 메모리 뱅크를 도입해 계층적 대조학습으로 확장한다.
- 표현 학습을 안정시키기 위해 모멘텀 업데이트가 적용된 메모리 뱅크 메커니즘을 사용한다.
- 비선형 매핑 φ와 온도 T를 통해 교차-시간 유사성을 계산하는 유사도 함수 h를 정의한다.
- 대조적 목표가 캡처한 공유 의미를 시각화하기 위한 인스턴스 대응 맵(ICM)을 소개한다.
실험 결과
연구 질문
- RQ1같은 동작의 두 클립 간의 시각적 템포 변화가 단일 템포 접근법보다 더 강한 자기지도 신호를 제공하는가?
- RQ2다양한 네트워크 깊이를 활용한 계층적 대조학습이 비디오 표현 학습을 개선하는가?
- RQ3템포 일관 표현이 액션 인식 외의 다운스트림 작업(예: 탐지, 예측)으로의 전이 성능에 얼마나 잘 적용되는가?
- RQ4ICM을 통해 모델이 공유된 인스턴스 의미에 대해 학습한 것을 정성적으로 해석할 수 있는가?
주요 결과
| Method | Backbone | Frames | UCF-101 (Top-1) | HMDB-51 (Top-1) |
|---|---|---|---|---|
| VTHCL-R18 (Ours) | 3D-ResNet18 | 8 | 80.6 | 48.6 |
| VTHCL-R50 (Ours) | 3D-ResNet50 | 8 | 82.1 | 49.2 |
- 느리게와 빠르게 재생되는 템포 페어를 사용하는 VTHCL은 UCF-101에서 82.1% Top-1(R50) 및 HMDB-51에서 49.2% Top-1(R50)로 경쟁력 있는 성능을 보인다.
- 다층 네트워크 깊이(res3/res4/res5)를 이용한 계층적 대조학습은 단일 깊이 대조학습 성능보다 개선된다.
- 느린 클립과 빠른 클립 간의 템포 차이(alpha)를 키울수록 일반적으로 단일 템포 대조학습 대비 정확도가 향상된다.
- VTHCL 표현은 AVA의 액션 탐지 및 Epic-Kitchen의 예측과 같은 다른 작업으로의 전이를 보이며 인식 외의 일반화가 가능하다는 것을 보여준다.
- ICM은 학습된 표현이 구별 가능한 영역과 움직이는 물체를 포착함을 시각적으로 보여주며, 라벨 없이도 공유된 인스턴스 의미를 드러낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.