QUICK REVIEW

[논문 리뷰] VideoPoet: A Large Language Model for Zero-Shot Video Generation

Dan Kondratyuk, Lijun Yu|arXiv (Cornell University)|2023. 12. 21.

Generative Adversarial Networks and Image Synthesis인용 수 19

한 줄 요약

VideoPoet는 텍스트, 이미지, 비디오, 오디오를 단일 토큰화와 다중모달 사전학습, 그리고 초해상도 모듈을 통해 디코더-전용 대형 언어 모델로 제로샷 비디오 생성을 수행합니다.

ABSTRACT

We present VideoPoet, a language model capable of synthesizing high-quality video, with matching audio, from a large variety of conditioning signals. VideoPoet employs a decoder-only transformer architecture that processes multimodal inputs -- including images, videos, text, and audio. The training protocol follows that of Large Language Models (LLMs), consisting of two stages: pretraining and task-specific adaptation. During pretraining, VideoPoet incorporates a mixture of multimodal generative objectives within an autoregressive Transformer framework. The pretrained LLM serves as a foundation that can be adapted for a range of video generation tasks. We present empirical results demonstrating the model's state-of-the-art capabilities in zero-shot video generation, specifically highlighting VideoPoet's ability to generate high-fidelity motions. Project page: http://sites.research.google/videopoet/

연구 동기 및 목표

텍스트, 이미지, 비디오, 오디오 입력을 처리할 수 있는 다용도 비디오 생성용 기반 모델 구축 동기 부여.
다중 모달리티를 공유 어휘로 토큰화하는 디코더-전용 LLM 프레임워크를 개발하여 엔드투엔드 비디오 생성을 가능하게 함.
텍스트-투-비디오, 이미지-투-비디오, 비디오 편집, 스타일링 등의 태스크에 걸쳐 엔드투엔드 제로샷 비디오 생성을 enable.
고품질 모션을 달성하고 장거리 생성 지원을 위해 2단계 사전학습 및 태스크적응 전략을 활용

제안 방법

MAGVIT-v2를 사용하여 이미지/비디오 토큰화를 공동으로 수행하고 SoundStream으로 오디오 토큰화를 수행하여 통합된 이산 어휘를 생성합니다.
고정된 T5 XL 인코더의 텍스트 임베딩을 입력으로 받아들여 디코더-전용 트랜스포머를 LLM 백본으로 채택합니다.
자 autoregressive 프레임워크에서 텍스트-비디오, 텍스트-이미지, 이미지/비디오 미래 예측, 인페인팅/아웃페인팅, 스타일링, 오디오/비디오를 포함하는 다중모달 사전학습 목표의 혼합으로 학습합니다.
단일 모델 내에서 다수의 비디오 생성 태스크를 가능하게 하는 양방향 접두 입력 설계 및 태스크 특화 토큰을 도입합니다.
텍스트를 조건으로 저해상도 토큰을 고해상도 비디오로 업샘플링하는 비자기회귀, 창-다축 어텐션 초상향 모듈을 추가합니다.
가변 길이 시퀀스에서의 효율적 학습을 위해 가속화된 Alternating Gradient Descent를 도입하고, 시각적 학습과 모션 학습의 균형을 맞추기 위한 2단계 데이터 샘플링 전략(초기에는 이미지 90% / 비디오 10%, 이후 교환) 을 사용합니다.
고품질 텍스트-비디오 데이터 및 비디오-오디오 태스크에 대해 미세조정하여 품질을 향상시키고 새로운 기능을 가능하게 합니다.

VideoPoet: A Large Language Model for Zero-Shot Video Generation

실험 결과

연구 질문

RQ1단일 LLM 기반 모델이 여러 모달리티와 태스크에서 고품질의 제로샷 비디오 생성을 달성할 수 있는가?
RQ2다중모달 사전학습 태스크가 제로샷 성능과 모션 충실도에 어떻게 기여하는가?
RQ3모델 규모와 데이터 규모가 비디오 및 오디오 생성 품질에 어떤 영향을 미치는가?
RQ4태스크별 어댑터 없이도 모델이 장거리 생성 및 복합 태스크(예: 편집, 스타일링)를 수행할 수 있는가?
RQ5제안된 초상향 모듈이 공간적 디테일을 과도한 계산 없이 개선하는 데 얼마나 효과적인가?

주요 결과

Model	MSR-VTT CLIPSIM	MSR-VTT FVD	UCF-101 FVD	MSR-VTT IS
CogVideo (EN)	0.2631	1294	702	25.27
MagicVideo	-	998	655	-
Video LDM	0.2929	-	551	33.45
ModelScopeT2V	0.2930	550	-	-
InternVid	0.2951	-	617	21.04
VideoFactory	0.3005	-	410	-
Show-1	0.3072	538	394	35.42
VideoPoet (Pretrain)	0.3049	213	355	38.44
VideoPoet (Task adapt)	0.3123	-	-	-

VideoPoet는 MSR-VTT 및 UCF-101에서 CLIPSIM 및 FVD 지표로 제로샷 텍스트-투-비디오 성능에서 경쟁력을 보임.
고품질 텍스트-비디오 데이터에 대한 미세조정은 MSR-VTT의 CLIPSIM을 향상시키고 모션 충실도를 개선함.
모델 규모를 300M에서 8B 파라미터로 확장하면 시간적 일관성, 모션, 그리고 텍스트 렌더링 및 카운팅의 제한된 범위를 포함한 더 넓은 기능이 향상됨.
모델은 다양한 태스크에서 제로샷 능력을 보이고 새로운 기능을 위해 태스크를 연결할 수 있으며 비디오-오디오 생성도 가능함.
2단계 사전학습 전략과 통합 토큰 공간의 사용은 이미지-텍스트 및 비디오 데이터 모두에서의 효율적인 다중태스크 학습을 가능하게 함.
VideoPoet는 마지막으로 생성된 프레임을 조건으로 자동적으로 확장하여 최대 10초까지 일관된 긴 비디오를 생성할 수 있음.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.