[논문 리뷰] VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning
VIMPAC은 VQ-VAE 토큰에 대한 블록 단위 마스킹 토큰 예측과 대조 학습을 영상 프리트레이닝에 결합하여, 시간적으로 데이터가 많은 데이터셋에서 최첨단 성능을 달성하고, 데이터 증강을 과도하게 사용하지 않는 공간적으로 데이터가 많은 데이터셋에서도 경쟁력 있는 결과를 얻는다.
Video understanding relies on perceiving the global content and modeling its internal connections (e.g., causality, movement, and spatio-temporal correspondence). To learn these interactions, we apply a mask-then-predict pre-training task on discretized video tokens generated via VQ-VAE. Unlike language, where the text tokens are more independent, neighboring video tokens typically have strong correlations (e.g., consecutive video frames usually look very similar), and hence uniformly masking individual tokens will make the task too trivial to learn useful representations. To deal with this issue, we propose a block-wise masking strategy where we mask neighboring video tokens in both spatial and temporal domains. We also add an augmentation-free contrastive learning method to further capture the global content by predicting whether the video clips are sampled from the same video. We pre-train our model on uncurated videos and show that our pre-trained model can reach state-of-the-art results on several video understanding datasets (e.g., SSV2, Diving48). Lastly, we provide detailed analyses on model scalability and pre-training method design. Code is released at https://github.com/airsplay/vimpac.
연구 동기 및 목표
- 현지 토큰 모델링과 글로벌 콘텐츠 구분을 결합하여 강력한 비디오 표현 학습을 동기화한다.
- 비디오의 시공간 토큰 상관관계를 고려한 마스킹 전략을 개발한다.
- 강력한 데이터 증강에 의존하지 않는 대조 학습 목표를 활용한다.
- VQ-VAE 토큰화를 통해 정리된 비디오에서 효율적이고 확장 가능한 프리트레이닝을 가능하게 한다.
제안 방법
- 고정된 VQ-VAE 인코더로 비디오 프레임을 토큰화하여 프레임별 이산 토큰 맵을 얻는다.
- 블록 단위(3D 시공간) 마스킹을 적용하여 도전적인 재구성 타깃을 만든다.
- 트랜스포머 인코더를 사용한 마스크-그다음-예측(mask-then-predict) 손실로 마스킹된 토큰을 재구성하도록 학습한다.
- 병렬로 InfoNCE를 사용한 토큰화된 클립에 대한 대조 학습을 수행하되 양성은 같은 비디오에서, 부정은 다른 비디오에서 가져온다.
- 마스크-그다음-예측 손실과 스케일된 대조 손실을 합쳐 결합 프리트레이닝 목적 L = L_mask + alpha * gamma * L_cl 로 최적화한다.
실험 결과
연구 질문
- RQ1블록 단위로 이산화된 비디오 토큰에 대한 마스킹이 균일 마스킹보다 더 풍부한 시공간 표현을 낼 수 있는가?
- RQ2토큰 재구성에 대조 학습 목표를 통합하면 전역적이고 구분 가능한 비디오 표현이 개선되는가?
- RQ3마스킹 전략, 대조 샘플링, 토큰 양자화 등 프리트레이닝 설계가 시간적으로 강한 데이터셋과 공간적으로 강한 데이터셋에 어떤 영향을 미치는가?
- RQ4모델 크기, 입력 해상도, 프리트레이닝 설정이 다운스트림 비디오 분류 성능에 미치는 영향은 무엇인가?
주요 결과
- VIMPAC은 시공간적으로 시간 의존성이 큰 데이터셋 SSV2와 Diving48에서 자기지도 학습 및 감독 사전학습 맥락에서 최첨단 성능을 달성한다.
- 공간적으로 강한 데이터셋(UCF101, HMDB51, Kinetics-400)에서도 VIMPAC은 기존 방법들에 비해 경쟁력 있는 결과를 제공한다.
- 블록 마스킹은 UCF101의 downstream 성능에서 iid 마스킹보다 우수한 글로벌 구조 학습을 나타내며, 마스크 토큰 예측 정확도는 낮아도 효과적이다.
- VIMPAC의 대조 학습은 긴 거리의 양성 페어(최대 400초)에서 이점을 얻으며, 과도한 데이터 증강이 필요하지 않다.
- 모델 크기 및 시공간 입력 해상도를 높이면 일반적으로 다운스트림 정확도가 향상되며, 더 긴 클립은 UCF101에서 특히 큰 이득을 준다.
- VQ-VAE 토큰화를 사용하면 픽셀 수준 생성이 아니라 노이즈 제거/재구성에 효율적이므로 계산이 줄고 유용한 표현은 보존된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.