[论文解读] Make-A-Video: Text-to-Video Generation without Text-Video Data
Make-A-Video 将预训练的 text-to-image 模型转换为 text-to-video 系统,通过添加时空层和帧插值模块,在无需成对文本-视频数据的情况下实现最先进的结果。它利用图像先验和未标记的视频数据进行训练。
We propose Make-A-Video -- an approach for directly translating the tremendous recent progress in Text-to-Image (T2I) generation to Text-to-Video (T2V). Our intuition is simple: learn what the world looks like and how it is described from paired text-image data, and learn how the world moves from unsupervised video footage. Make-A-Video has three advantages: (1) it accelerates training of the T2V model (it does not need to learn visual and multimodal representations from scratch), (2) it does not require paired text-video data, and (3) the generated videos inherit the vastness (diversity in aesthetic, fantastical depictions, etc.) of today's image generation models. We design a simple yet effective way to build on T2I models with novel and effective spatial-temporal modules. First, we decompose the full temporal U-Net and attention tensors and approximate them in space and time. Second, we design a spatial temporal pipeline to generate high resolution and frame rate videos with a video decoder, interpolation model and two super resolution models that can enable various applications besides T2V. In all aspects, spatial and temporal resolution, faithfulness to text, and quality, Make-A-Video sets the new state-of-the-art in text-to-video generation, as determined by both qualitative and quantitative measures.
研究动机与目标
- 利用大规模的文本-图像先验来引导视频生成,而无需成对的文本-视频数据。
- 通过伪3D卷积和注意力将二维扩散架构扩展到时间域。
- 结合帧插值和时空超分辨率以生成高分辨率、高帧率的视频。
- 通过 fps 设定和时序模块实现可控的帧率和吞吐量。
- 在标准基准上评估零-shot 和微调后的性能,比较现有文本到视频系统。
提出的方法
- 从在文本-图像对 (P, D, SR_l, SR_h) 上训练的预训练文本到图像 (T2I) 模型开始。
- 将空间层扩展到时间域,使用伪3D (P3D) 卷积和注意力,初始化为单位矩阵以实现平滑过渡。
- 添加一个帧插值网络 (↑F) 和时序条件 (fps),以生成更高帧率的视频。
- 在初始仅图像训练之后,使用未标记的视频数据对时序层进行训练,每个片段包含 16 帧,fps 随机化。
- 在时空上使用两级放大管线 (SR_l^t, SR_h) 以实现更高的空间分辨率和时间一致性。
- 微调一个用于掩码帧插值的时序解码器,以实现时间上的上采样。
- 推理流程如下:先由先验 P 转换为图像嵌入,再将 D^t 变为 16x64x64 帧,然後用 ↑F 进行插值,再用 SR_l^t 和 SR_h 升采样至 256x256 和 768x768,得到最终视频。
实验结果
研究问题
- RQ1是否可以有效地将文本到图像基础模型重新用作生成视频,而不依赖成对的文本-视频数据?
- RQ2从二维图像先验初始化的扩展时空扩散模块是否能够在视频中实现连贯的运动和对文本的忠实对齐?
- RQ3在文本提示下,帧插值和时空超分辨率如何影响视频质量和帧率?
- RQ4零-shot 与微调后的 T2V 与现有的最先进方法在标准基准上的性能如何比较?
- RQ5fps 条件对视频生成的多样性和真实感有何影响?
主要发现
- Make-A-Video 在文本到视频生成方面在定性和定量指标上均达到最先进水平。
- 零-shot 的 MSR-VTT 评估:Make-A-Video 超越 GODIVA 和 NÜWA,并在英文和中文设置中超过 CogVideo(表1)。
- UCF-101 零-shot:Make-A-Video 的 IS 为 33.00,FVD 为 367.23,超过若干先前方法;微调后得到 82.55 IS 和 81.25 FVD(表2)。
- 人类评估显示,在 DrawBench 和作者的评测集中,Make-A-Video 在质量和忠实度方面受到偏好,相比 CogVideo 和 VDM 基线具有明显优势(表3)。
- 帧插值 (↑F) 在用户研究中相较于 FILM 在运动真实感方面更受欢迎(一个集合 62%,另一个集合 54%)。
- 该方法使用开源数据集(WebVid-10M,HD-VILA-100M),并不依赖成对文本-视频数据,从而实现可扩展的训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。