[论文解读] VideoPoet: A Large Language Model for Zero-Shot Video Generation
VideoPoet 提供一个解码器式大语言模型,能够在文本、图像、视频和音频条件下进行零-shot 的视频生成,且具备高保真运动能力,依赖统一的多模态令牌化和多模态预训练 plus 超分辨率模块。
We present VideoPoet, a language model capable of synthesizing high-quality video, with matching audio, from a large variety of conditioning signals. VideoPoet employs a decoder-only transformer architecture that processes multimodal inputs -- including images, videos, text, and audio. The training protocol follows that of Large Language Models (LLMs), consisting of two stages: pretraining and task-specific adaptation. During pretraining, VideoPoet incorporates a mixture of multimodal generative objectives within an autoregressive Transformer framework. The pretrained LLM serves as a foundation that can be adapted for a range of video generation tasks. We present empirical results demonstrating the model's state-of-the-art capabilities in zero-shot video generation, specifically highlighting VideoPoet's ability to generate high-fidelity motions. Project page: http://sites.research.google/videopoet/
研究动机与目标
- 构建一个基础模型用于多功能视频生成,能够处理文本、图片、视频和音频输入。
- 开发一个解码器式 LLm 框架,将多模态令牌化为一个共享词汇表,实现端到端视频生成。
- 实现端到端的零-shot 视频生成,覆盖文本到视频、图像到视频、视频编辑与风格化等任务。
- 通过两阶段预训练与任务自适应策略,达到高质量运动和长序列生成能力。
提出的方法
- 使用 MAGVIT-v2 进行联合图像/视频令牌化,结合 SoundStream 的音频令牌化,创建统一的离散词汇。
- 采用解码器式 Transformer 作为 LLM 主体,输入来自冻结的 T5 XL 编码器的文本嵌入。
- 在自回归框架下,混合多模态预训练目标(文本到视频、文本到图像、图像/视频未来预测、修复/外修、风格化、音频/视频)进行训练。
- 引入双向前缀输入设计和任务特定令牌,使一个模型即可执行多种视频生成任务。
- 新增非自回归、窗口化多轴注意力的超分辨率模块,把低分辨率令牌在文本条件下上采样到高分辨率视频。
- 采用加速的交替梯度下降以高效训练可变长度序列,并使用两阶段数据采样策略(初始为图像 90% / 视频 10%,随后互换)以平衡视觉与运动学习。
- 在高质量文本-视频数据上微调,以及在视频到音频任务上微调,以提升质量并开启新能力。

实验结果
研究问题
- RQ1一个单一的基于 LLM 的模型是否能够在多模态和多任务下实现高质量的零-shot 视频生成?
- RQ2多模态预训练任务如何提升零-shot 性能与运动保真?
- RQ3模型规模和数据规模对视频和音频生成质量的影响如何?
- RQ4模型是否能够在没有任务特定适配器的情况下实现长范围生成与复杂任务(如编辑、风格化)?
- RQ5提出的超分辨率模块在不显著增加计算成本的前提下提升空间细节的效果如何?
主要发现
| Model | MSR-VTT CLIPSIM | MSR-VTT FVD | UCF-101 FVD | MSR-VTT IS |
|---|---|---|---|---|
| CogVideo (EN) | 0.2631 | 1294 | 702 | 25.27 |
| MagicVideo | - | 998 | 655 | - |
| Video LDM | 0.2929 | - | 551 | 33.45 |
| ModelScopeT2V | 0.2930 | 550 | - | - |
| InternVid | 0.2951 | - | 617 | 21.04 |
| VideoFactory | 0.3005 | - | 410 | - |
| Show-1 | 0.3072 | 538 | 394 | 35.42 |
| VideoPoet (Pretrain) | 0.3049 | 213 | 355 | 38.44 |
| VideoPoet (Task adapt) | 0.3123 | - | - | - |
- VideoPoet 在 MSR-VTT 和 UCF-101 上以 CLIPSIM 和 FVD 指标实现具有竞争力的零-shot 文本到视频性能。
- 在高质量文本-视频数据上进行微调可提升 MSR-VTT 的 CLIPSIM 并支持更好的运动保真。
- 从 300M 参数扩展到 8B 参数的模型规模带来更好的时间一致性、运动及更广的能力,包括有限的文本渲染与计数能力。
- 模型在多种任务上展示出零-shot 能力,并且可以串联任务以实现新能力,包括视频到音频生成。
- 两阶段预训练策略和统一的 token 空间使多模态学习在图像-文本与视频数据之间得以高效进行。
- VideoPoet 能通过自回归地扩展基于最后生成帧的内容,生成稳定的长视频,最长可达 10 秒。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。