[논문 리뷰] VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
VideoCoCa는 미리 학습된 이미지-텍스트 CoCa 모델을 재사용해 비디오-텍스트 작업을 추가 학습을 최소화하고 수행하며, 제로샷 성능이 강하고 VQA 및 캡션에 대해 가벼운 파인튜닝을 가능하게 한다.
We explore an efficient approach to establish a foundational video-text model. We present VideoCoCa that maximally reuses a pretrained image-text contrastive captioner (CoCa) model and adapt it to video-text tasks with minimal extra training. While previous works adapt image-text models with various cross-frame fusion modules, we find that the generative attentional pooling and contrastive attentional pooling layers in CoCa are instantly adaptable to flattened frame embeddings, yielding state-of-the-art results on zero-shot video classification and zero-shot text-to-video retrieval. Furthermore, we explore lightweight finetuning on top of VideoCoCa, and achieve strong results on video question-answering and video captioning.
연구 동기 및 목표
- 얼려진 이미지-텍스트 CoCa 모델을 최소한의 추가 학습으로 비디오-텍스트 작업으로 확장할 수 있음을 입증한다.
- 비디오 전용 모듈 없이 비디오-분류 및 텍스트-대-비디오 검색에서 제로샷 성능을 보여준다.
- 효율성을 유지하면서 비디오 QA와 캡션 작성을 개선하기 위한 경량 파인튜닝 전략을 탐구한다.
제안 방법
- 사전 학습된 이미지 인코더의 프레임별 토큰 임베딩을 긴 시퀀스로 평탄화한다.
- 평탄화된 프레임 시퀀스에 기존 CoCa 어텐셔널 풀러를 적용하여 비디오 표현을 만든다(Attentional Pooler).
- 선택적으로 인자 분해된 공간-시간 인코더나 결합 공간-시간 인코더, 또는 평균 풀링과 같은 경량 어댑터를 추가한다.
- VideoCC3M 데이터와 LiT(동결된 인코더) 전략을 사용하여 매개변수의 작은 부분(어텐셔널 풀러 및 선택적으로 디코더)만 파인튜닝한다.
- 혼합 비디오-텍스트 데이터(VideoCC3M, HowTo100M이 검토됨)로 사전 학습하고 제로샷 및 파인튜닝 성능을 다양한 비디오 작업에서 평가한다.
실험 결과
연구 질문
- RQ1사전 학습된 이미지-텍스트 CoCa 모델을 최소 매개변수와 새로운 비디오 특화 모듈 없이 비디오-텍스트 작업으로 이전할 수 있는가?
- RQ2다양한 어댑터 전략(Attentional Pooler, Factorized Encoder, Joint Space-Time, Mean Pooling)이 제로샷 비디오 분류 및 검색에 대해 어떻게 비교되는가?
- RQ3비디오-텍스트 적응을 위해 어떤 튜닝 전략(Full FT, Frozen, Frozen+FT, LiT)이 최상의 성능과 효율을 제공하는가?
- RQ4비디오-텍스트 데이터(VideoCC3M)로의 지속적인 사전 학습이 제로샷 및 파인튜닝된 비디오 작업에 어떤 영향을 미치는가?
- RQ5오픈 벡터리지 비디오 분류, 텍스트-대-비디오 검색, 비디오 캡션 및 비디오 QA에서 VideoCoCa의 성능은 어떤가?
주요 결과
| 어댑터 | 비디오 분류 Top-1 | 비디오 분류 Top-5 | 비디오 검색 R@1 | 비디오 검색 R@5 | 비디오 캡션 BLEU-4 | 비디오 캡션 CIDEr |
|---|---|---|---|---|---|---|
| 평균 풀링 | 40.3 | 69.3 | 24.5 | 45.3 | 15.5 | 13.4 |
| 인자 분해 인코더 | 43.3 | 72.7 | 24.9 | 45.6 | 15.5 | 17.2 |
| 결합 공간-시간 | 38.1 | 65.5 | 22.6 | 43.8 | 14.7 | 12.1 |
| 어텐셔널 풀러 | 45.6 | 73.4 | 26.4 | 46.8 | 16.8 | 19.9 |
- Attentional Pooler는 비디오 분류, 텍스트-대-비디오 검색, 비디오 캡션에서 일관되게 최고의 제로샷 전이 성능을 제공한다.
- VideoCoCa는 Attentional Pooler를 사용할 때 Kinetics 및 MSR-VTT 관련 작업에서 Mean Pooling 및 다른 어댑터 변형보다 더 높은 제로샷 지표를 달성한다.
- LiT 스타일 튜닝(고정된 이미지 인코더, 학습 가능한 풀러 및 디코더)이 텍스트-대-비디오 검색 및 캡션에 최고 성능을 제공한다.
- VideoCC3M에서의 지속적인 사전 학습은 여러 작업에서 제로샷 성능을 향상시키며, 특정 데이터셋에서 주목할 만한 이득이 있다(MSR-VTT, ActivityNet Captions, VATEX).
- VideoCoCa는 효과적으로 확장되며, 더 큰 모델이 TFLOPs 증가를 상대적으로 작게 하면서도 더 높은 지표를 달성하고, 유사한 계산량에서 CoCa 베이스라인을 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.