QUICK REVIEW

[논문 리뷰] VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

Shen Yan, Tao Zhu|arXiv (Cornell University)|2022. 12. 09.

Multimodal Machine Learning Applications인용 수 20

한 줄 요약

VideoCoCa는 미리 학습된 이미지-텍스트 CoCa 모델을 재사용해 비디오-텍스트 작업을 추가 학습을 최소화하고 수행하며, 제로샷 성능이 강하고 VQA 및 캡션에 대해 가벼운 파인튜닝을 가능하게 한다.

ABSTRACT

We explore an efficient approach to establish a foundational video-text model. We present VideoCoCa that maximally reuses a pretrained image-text contrastive captioner (CoCa) model and adapt it to video-text tasks with minimal extra training. While previous works adapt image-text models with various cross-frame fusion modules, we find that the generative attentional pooling and contrastive attentional pooling layers in CoCa are instantly adaptable to flattened frame embeddings, yielding state-of-the-art results on zero-shot video classification and zero-shot text-to-video retrieval. Furthermore, we explore lightweight finetuning on top of VideoCoCa, and achieve strong results on video question-answering and video captioning.

연구 동기 및 목표

얼려진 이미지-텍스트 CoCa 모델을 최소한의 추가 학습으로 비디오-텍스트 작업으로 확장할 수 있음을 입증한다.
비디오 전용 모듈 없이 비디오-분류 및 텍스트-대-비디오 검색에서 제로샷 성능을 보여준다.
효율성을 유지하면서 비디오 QA와 캡션 작성을 개선하기 위한 경량 파인튜닝 전략을 탐구한다.

제안 방법

사전 학습된 이미지 인코더의 프레임별 토큰 임베딩을 긴 시퀀스로 평탄화한다.
평탄화된 프레임 시퀀스에 기존 CoCa 어텐셔널 풀러를 적용하여 비디오 표현을 만든다(Attentional Pooler).
선택적으로 인자 분해된 공간-시간 인코더나 결합 공간-시간 인코더, 또는 평균 풀링과 같은 경량 어댑터를 추가한다.
VideoCC3M 데이터와 LiT(동결된 인코더) 전략을 사용하여 매개변수의 작은 부분(어텐셔널 풀러 및 선택적으로 디코더)만 파인튜닝한다.
혼합 비디오-텍스트 데이터(VideoCC3M, HowTo100M이 검토됨)로 사전 학습하고 제로샷 및 파인튜닝 성능을 다양한 비디오 작업에서 평가한다.

실험 결과

연구 질문

RQ1사전 학습된 이미지-텍스트 CoCa 모델을 최소 매개변수와 새로운 비디오 특화 모듈 없이 비디오-텍스트 작업으로 이전할 수 있는가?
RQ2다양한 어댑터 전략(Attentional Pooler, Factorized Encoder, Joint Space-Time, Mean Pooling)이 제로샷 비디오 분류 및 검색에 대해 어떻게 비교되는가?
RQ3비디오-텍스트 적응을 위해 어떤 튜닝 전략(Full FT, Frozen, Frozen+FT, LiT)이 최상의 성능과 효율을 제공하는가?
RQ4비디오-텍스트 데이터(VideoCC3M)로의 지속적인 사전 학습이 제로샷 및 파인튜닝된 비디오 작업에 어떤 영향을 미치는가?
RQ5오픈 벡터리지 비디오 분류, 텍스트-대-비디오 검색, 비디오 캡션 및 비디오 QA에서 VideoCoCa의 성능은 어떤가?

주요 결과

어댑터	비디오 분류 Top-1	비디오 분류 Top-5	비디오 검색 R@1	비디오 검색 R@5	비디오 캡션 BLEU-4	비디오 캡션 CIDEr
평균 풀링	40.3	69.3	24.5	45.3	15.5	13.4
인자 분해 인코더	43.3	72.7	24.9	45.6	15.5	17.2
결합 공간-시간	38.1	65.5	22.6	43.8	14.7	12.1
어텐셔널 풀러	45.6	73.4	26.4	46.8	16.8	19.9

Attentional Pooler는 비디오 분류, 텍스트-대-비디오 검색, 비디오 캡션에서 일관되게 최고의 제로샷 전이 성능을 제공한다.
VideoCoCa는 Attentional Pooler를 사용할 때 Kinetics 및 MSR-VTT 관련 작업에서 Mean Pooling 및 다른 어댑터 변형보다 더 높은 제로샷 지표를 달성한다.
LiT 스타일 튜닝(고정된 이미지 인코더, 학습 가능한 풀러 및 디코더)이 텍스트-대-비디오 검색 및 캡션에 최고 성능을 제공한다.
VideoCC3M에서의 지속적인 사전 학습은 여러 작업에서 제로샷 성능을 향상시키며, 특정 데이터셋에서 주목할 만한 이득이 있다(MSR-VTT, ActivityNet Captions, VATEX).
VideoCoCa는 효과적으로 확장되며, 더 큰 모델이 TFLOPs 증가를 상대적으로 작게 하면서도 더 높은 지표를 달성하고, 유사한 계산량에서 CoCa 베이스라인을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.