[논문 리뷰] VideoPoet: A Large Language Model for Zero-Shot Video Generation
VideoPoet는 텍스트, 이미지, 비디오, 오디오를 단일 토큰화와 다중모달 사전학습, 그리고 초해상도 모듈을 통해 디코더-전용 대형 언어 모델로 제로샷 비디오 생성을 수행합니다.
We present VideoPoet, a language model capable of synthesizing high-quality video, with matching audio, from a large variety of conditioning signals. VideoPoet employs a decoder-only transformer architecture that processes multimodal inputs -- including images, videos, text, and audio. The training protocol follows that of Large Language Models (LLMs), consisting of two stages: pretraining and task-specific adaptation. During pretraining, VideoPoet incorporates a mixture of multimodal generative objectives within an autoregressive Transformer framework. The pretrained LLM serves as a foundation that can be adapted for a range of video generation tasks. We present empirical results demonstrating the model's state-of-the-art capabilities in zero-shot video generation, specifically highlighting VideoPoet's ability to generate high-fidelity motions. Project page: http://sites.research.google/videopoet/
연구 동기 및 목표
- 텍스트, 이미지, 비디오, 오디오 입력을 처리할 수 있는 다용도 비디오 생성용 기반 모델 구축 동기 부여.
- 다중 모달리티를 공유 어휘로 토큰화하는 디코더-전용 LLM 프레임워크를 개발하여 엔드투엔드 비디오 생성을 가능하게 함.
- 텍스트-투-비디오, 이미지-투-비디오, 비디오 편집, 스타일링 등의 태스크에 걸쳐 엔드투엔드 제로샷 비디오 생성을 enable.
- 고품질 모션을 달성하고 장거리 생성 지원을 위해 2단계 사전학습 및 태스크적응 전략을 활용
제안 방법
- MAGVIT-v2를 사용하여 이미지/비디오 토큰화를 공동으로 수행하고 SoundStream으로 오디오 토큰화를 수행하여 통합된 이산 어휘를 생성합니다.
- 고정된 T5 XL 인코더의 텍스트 임베딩을 입력으로 받아들여 디코더-전용 트랜스포머를 LLM 백본으로 채택합니다.
- 자 autoregressive 프레임워크에서 텍스트-비디오, 텍스트-이미지, 이미지/비디오 미래 예측, 인페인팅/아웃페인팅, 스타일링, 오디오/비디오를 포함하는 다중모달 사전학습 목표의 혼합으로 학습합니다.
- 단일 모델 내에서 다수의 비디오 생성 태스크를 가능하게 하는 양방향 접두 입력 설계 및 태스크 특화 토큰을 도입합니다.
- 텍스트를 조건으로 저해상도 토큰을 고해상도 비디오로 업샘플링하는 비자기회귀, 창-다축 어텐션 초상향 모듈을 추가합니다.
- 가변 길이 시퀀스에서의 효율적 학습을 위해 가속화된 Alternating Gradient Descent를 도입하고, 시각적 학습과 모션 학습의 균형을 맞추기 위한 2단계 데이터 샘플링 전략(초기에는 이미지 90% / 비디오 10%, 이후 교환) 을 사용합니다.
- 고품질 텍스트-비디오 데이터 및 비디오-오디오 태스크에 대해 미세조정하여 품질을 향상시키고 새로운 기능을 가능하게 합니다.

실험 결과
연구 질문
- RQ1단일 LLM 기반 모델이 여러 모달리티와 태스크에서 고품질의 제로샷 비디오 생성을 달성할 수 있는가?
- RQ2다중모달 사전학습 태스크가 제로샷 성능과 모션 충실도에 어떻게 기여하는가?
- RQ3모델 규모와 데이터 규모가 비디오 및 오디오 생성 품질에 어떤 영향을 미치는가?
- RQ4태스크별 어댑터 없이도 모델이 장거리 생성 및 복합 태스크(예: 편집, 스타일링)를 수행할 수 있는가?
- RQ5제안된 초상향 모듈이 공간적 디테일을 과도한 계산 없이 개선하는 데 얼마나 효과적인가?
주요 결과
| Model | MSR-VTT CLIPSIM | MSR-VTT FVD | UCF-101 FVD | MSR-VTT IS |
|---|---|---|---|---|
| CogVideo (EN) | 0.2631 | 1294 | 702 | 25.27 |
| MagicVideo | - | 998 | 655 | - |
| Video LDM | 0.2929 | - | 551 | 33.45 |
| ModelScopeT2V | 0.2930 | 550 | - | - |
| InternVid | 0.2951 | - | 617 | 21.04 |
| VideoFactory | 0.3005 | - | 410 | - |
| Show-1 | 0.3072 | 538 | 394 | 35.42 |
| VideoPoet (Pretrain) | 0.3049 | 213 | 355 | 38.44 |
| VideoPoet (Task adapt) | 0.3123 | - | - | - |
- VideoPoet는 MSR-VTT 및 UCF-101에서 CLIPSIM 및 FVD 지표로 제로샷 텍스트-투-비디오 성능에서 경쟁력을 보임.
- 고품질 텍스트-비디오 데이터에 대한 미세조정은 MSR-VTT의 CLIPSIM을 향상시키고 모션 충실도를 개선함.
- 모델 규모를 300M에서 8B 파라미터로 확장하면 시간적 일관성, 모션, 그리고 텍스트 렌더링 및 카운팅의 제한된 범위를 포함한 더 넓은 기능이 향상됨.
- 모델은 다양한 태스크에서 제로샷 능력을 보이고 새로운 기능을 위해 태스크를 연결할 수 있으며 비디오-오디오 생성도 가능함.
- 2단계 사전학습 전략과 통합 토큰 공간의 사용은 이미지-텍스트 및 비디오 데이터 모두에서의 효율적인 다중태스크 학습을 가능하게 함.
- VideoPoet는 마지막으로 생성된 프레임을 조건으로 자동적으로 확장하여 최대 10초까지 일관된 긴 비디오를 생성할 수 있음.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.