[논문 리뷰] Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization
Video-LaVIT은 비디오를 키프레임과 모션 벡터로 분해하고, 이를 이산 토큰으로 토큰화하며, 이해와 생성 작업을 모두 다루는 LLM과 함께 비디오, 이미지, 텍스트 사전 학습을 통합합니다.
In light of recent advances in multimodal Large Language Models (LLMs), there is increasing attention to scaling them from image-text data to more informative real-world videos. Compared to static images, video poses unique challenges for effective large-scale pre-training due to the modeling of its spatiotemporal dynamics. In this paper, we address such limitations in video-language pre-training with an efficient video decomposition that represents each video as keyframes and temporal motions. These are then adapted to an LLM using well-designed tokenizers that discretize visual and temporal information as a few tokens, thus enabling unified generative pre-training of videos, images, and text. At inference, the generated tokens from the LLM are carefully recovered to the original continuous pixel space to create various video content. Our proposed framework is both capable of comprehending and generating image and video content, as demonstrated by its competitive performance across 13 multimodal benchmarks in image and video understanding and generation. Our code and models are available at https://video-lavit.github.io.
연구 동기 및 목표
- 동적인 이미지가 아닌 비디오 데이터에서비전-언어 모델의 확장 가능한 통합 사전 학습의 동기를 제시한다.
- 시각적 의미(키프레임)와 시간적 역학(모션 벡터)을 분리하는 효율적인 비디오 표현을 제안한다.
- 이산적 시각 및 모션 토큰화를 활용해 LLM으로 여러 모달리티(비디오, 이미지, 텍스트)에 대해 자동회귀 사전 학습을 가능하게 한다.
- 모델이 광범위한 미세 조정 없이 다중 모달 콘텐츠를 이해하고 생성할 수 있음을 입증한다.
제안 방법
- 키프레임용 이미지 토크나이저와 모션 벡터를 이산화하기 위한 VQ-VAE 기반의 모션 특화 토크나이저를 결합한 비디오 토크나이저를 도입한다.
- 연속된 프레임 간의 중복을 줄이기 위해 시각적 토큰과 모션 토큰을 번갈아 표현한다.
- 이산 토큰을 연속 비디오 프레임으로 매핑하는 3D U-네트워크 변형의 디토크나이저를 개발하고, 향상된 모션 조건화를 제공한다.
- 다양한 모달리티에 걸쳐 통일된 자동회귀 목표를 사용해 단일 프레임워크에서 공동 이해 및 생성을 가능하게 한다.
- 토크나이저/디토크나이저 학습을 비디오 데이터로 수행하고, 통합 생성 사전 학습 및 지침 튜닝의 3단계 학습 파이프라인을 채택한다.
실험 결과
연구 질문
- RQ1분해된 시각-모션 토크나이제이션 스킴이 대규모 LLM 사전 학습을 위해 비디오 역학을 효율적으로 포착할 수 있는가?
- RQ2통일된 생성 목표가Heavy task-specific fine-tuning 없이도 비디오/이미지 이해와 생성을 모두 가능하게 하는 정도는 어느 정도인가?
- RQ3프레임 기반 또는 3D 토큰 접근법에 비해 모션 토큰화가 비디오 이해 및 텍스트-비디오 생성 성능에 어떤 영향을 미치는가?
- RQ4디코딩 중 명시적 노이즈 제약을 통해 긴 비디오에서 시간적 일관성이 향상될 수 있는가?
주요 결과
- Video-LaVIT은 이미지 이해 벤치마크에서 최첨단 수준에 근접한 성능을 달성하며, 이미지-언어 사전 학습에서 다중 모달 태스크로의 일반화가 강하게 입증된다.
- 제로샷 비디오 질의응답에서 Video-LaVIT은 MSVD-QA, MSRVTT-QA, ActivityNet-QA에서 최첨단 정확도를 달성한다.
- 제로샷 텍스트-투-비디오 생성에서 Video-LaVIT은 많은 베이스라인을 능가하고 더 큰 독점 데이터로 학습된 모델과도 경쟁한다.
- 에를레이션 연구에서 모션 토큰화가 이해 및 생성에 상당한 향상을 보이며, 더 적은 수의 모션 토큰을 사용하는 것이 긴 비디오의 조건화 및 효율성을 높일 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.