Skip to main content
QUICK REVIEW

[논문 리뷰] VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending

Xingjian He, Sihan Chen|arXiv (Cornell University)|2023. 05. 22.
Multimodal Machine Learning Applications인용 수 11
한 줄 요약

VLAB은 CLIP 기반의 이미지-텍스트 표현을 피처 어댑팅과 피처 블렌딩을 사용하여 비디오-언어 사전 학습으로 전이시키고, 생성적 및 대조적 비디오-언어 작업 모두를 위한 통합 모델을 가능하게 하며, 여러 벤치마크에서 선도적인 성과를 달성한다.

ABSTRACT

Large-scale image-text contrastive pre-training models, such as CLIP, have been demonstrated to effectively learn high-quality multimodal representations. However, there is limited research on learning video-text representations for general video multimodal tasks based on these powerful features. Towards this goal, we propose a novel video-text pre-training method dubbed VLAB: Video Language pre-training by feature Adapting and Blending, which transfers CLIP representations to video pre-training tasks and develops unified video multimodal models for a wide range of video-text tasks. Specifically, VLAB is founded on two key strategies: feature adapting and feature blending. In the former, we introduce a new video adapter module to address CLIP's deficiency in modeling temporal information and extend the model's capability to encompass both contrastive and generative tasks. In the latter, we propose an end-to-end training method that further enhances the model's performance by exploiting the complementarity of image and video features. We validate the effectiveness and versatility of VLAB through extensive experiments on highly competitive video multimodal tasks, including video text retrieval, video captioning, and video question answering. Remarkably, VLAB outperforms competing methods significantly and sets new records in video question answering on MSRVTT, MSVD, and TGIF datasets. It achieves an accuracy of 49.6, 61.0, and 79.0, respectively. Codes and models will be released.

연구 동기 및 목표

  • CLIP와 같은 이미지-텍스트 모델을 활용하여 통합된 비디오-언어 사전학습을 어떻게 구현할지 탐구한다.
  • 시간적 다이내믹스를 포착하고 생성적 작업을 가능하게 하는 비디오 어댑터를 개발한다.
  • 하나의 모델에서 이미지 및 비디오 특징을 융합하는 피처 블렌딩 메커니즘을 제안한다.
  • 비디오 캡션, VQA 및 텍스트-비디오 검색 벤치마크에서 VLAB의 효과를 입증한다.

제안 방법

  • CLIP 시각 인코더 내에 비디오 어댑터를 도입하여 시간 정보를 모델링하고 생성적 작업을 가능하게 한다.
  • 두 단계로 학습한다: 적응적 전달(어댑터를 제외한 CLIP 고정) 및 통합 튜닝(모든 매개변수 학습 가능).
  • 다중모달 인코더에서 이미지와 비디오 특징을 융합하기 위한 두 가지 피처 블렌딩 전략(스택/병렬)을 개발한다.
  • 대조적 및 생성적 작업을 모두 지원하기 위해 L = L_vtc + L_mlm + L_uni-lm 의 공동 손실로 최적화한다.

실험 결과

연구 질문

  • RQ1CLIP 표현을 비디오-언어 사전학습으로 효과적으로 전달하여 모든 작업에 걸친 통합 모델을 형성할 수 있는가?
  • RQ2이전 CLIP 지식을 잃지 않으면서 이미지-텍스트 모델에 시간적 다이내믹스를 어떻게 통합할 수 있는가?
  • RQ3비디오-언어 작업을 위해 이미지에서 얻은 특징과 비디오에서 얻은 특징을 가장 잘 결합하는 블렌딩 전략은 무엇인가?
  • RQ4피처 어댑팅과 블렌딩이 비디오 캡션, VQA, 검색 벤치마크에서 개선을 가져오는가?

주요 결과

  • 1.6B 파라미터의 VLAB은 비디오 질문 응답에서 49.6(MSR-VTT), 61.0(MSVD), 79.0(TGIF)을 달성하여 GiT2, Flamingo 등 이전 방법을 능가한다.
  • VLAB-L(0.9B)는 더 큰 모델/데이터를 사용한 최신 방법들을 능가하고, VLAB-G는 MSRVTT, MSVD, TGIF 전선에서 새로운 기록을 달성한다.
  • 비디오 어댑터는 성능을 향상시키고 Webvid10M 데이터로 확장되며, 특히 더 큰 데이터셋으로 학습할 때 더 잘 작동한다.
  • 두 가지 교차 어텐션 블렌딩 전략(병렬 및 스택)이 이미지와 비디오 특징을 효과적으로 융합하며, 교차 어텐션 가중치를 공유하는 것이 메모리 효율적이고 효과적이다.
  • 적응적 전달 + 통합 튜닝은 비디오 어댑터에 대해 단일 단계 학습보다 더 나은 결과를 낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.