QUICK REVIEW

[论文解读] Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning

Rohit Girdhar, Mannat Singh|arXiv (Cornell University)|Nov 17, 2023

Video Analysis and Summarization被引用 16

一句话总结

Emu Video 将文本到视频生成分解为先从文本创建图像，然后在文本和图像的条件下生成视频，相较于以往工作在质量和时序一致性方面具有更高表现。

ABSTRACT

We present Emu Video, a text-to-video generation model that factorizes the generation into two steps: first generating an image conditioned on the text, and then generating a video conditioned on the text and the generated image. We identify critical design decisions--adjusted noise schedules for diffusion, and multi-stage training that enable us to directly generate high quality and high resolution videos, without requiring a deep cascade of models as in prior work. In human evaluations, our generated videos are strongly preferred in quality compared to all prior work--81% vs. Google's Imagen Video, 90% vs. Nvidia's PYOCO, and 96% vs. Meta's Make-A-Video. Our model outperforms commercial solutions such as RunwayML's Gen2 and Pika Labs. Finally, our factorizing approach naturally lends itself to animating images based on a user's text prompt, where our generations are preferred 96% over prior work.

研究动机与目标

通过显式图像条件来强化条件，从而推动更高质量的文本到视频生成。
利用预训练的文本到图像模型来初始化并冻结空间组件，同时学习时间动态。
证明零终端信噪比扩散计划和多阶段训练能够生成高分辨率（512 px）的视频。
展示模型在同一分解框架下对用户提供的图像进行动画化的能力。
提供一个稳健的人类评估协议（JUICE）来评估视频质量和真实度。

提出的方法

将文本到视频生成分解为两步：首先从文本提示生成一个图像 I，然后在文本和 I 的条件下生成视频。
从预训练的 T2I 扩散模型初始化视频模型并冻结空间参数；仅学习时间参数。
将视频表示为带帧编码的潜在扩散过程；通过将 I 与一个零填充掩码连接到输入中来对 I 进行条件化。
使用零终端信噪比扩散计划以对齐训练/测试分布并改进高分辨率生成。
引入一个时间插值模型，在不重新训练空间主干的情况下对帧率进行上采样。
分两阶段训练（256px 8fps，然后 512px 4fps）以在实现高分辨率输出的同时管理计算。
可选地对高运动/高质量片段进行微调，以提升运动保真度。

实验结果

研究问题

RQ1将文本到视频生成分解为图像加视频条件是否比直接的文本仅 T2V 方法在视觉质量和时序一致性方面有提升？
RQ2零终端信噪比扩散计划和多阶段训练是否能够在不使用深层级联模型的情况下实现高分辨率（512 px）的视频生成？
RQ3在学习时间动态时冻结空间参数如何影响来自 T2I 主干的多样性和风格迁移？
RQ4模型是否能够在同一分解框架下有效地对用户提供的图像进行动画化？
RQ5使用 JUICE 方案评估 T2V 的质量和忠实度时，人类判断的可靠性如何？

主要发现

方法	Q	F
Factorized	70.5	63.3
Zero SNR	96.8	88.3
Multi-stage	81.8	84.1
HQ finetune	65.1	79.6
Frozen spatial	55.0	58.1

分解生成（文本 + 图像条件）在质量和忠实度方面都优于直接的文本仅视频生成。
零终端信噪比扩散计划显著提升了高分辨率（512 px）视频生成。
多阶段多分辨率训练比直接在 512 px 上训练效果更好；大部分训练分配给 256 px 阶段以提高效率。
高质量微调进一步提升运动表现和对文本提示的忠实度。
在训练时间分辨率时冻结空间参数可产生更好的视频并降低训练成本。
在质量和忠实度的人类评价中，Emu Video 超越了先前工作和商业解决方案，在像素清晰度和运动平滑度方面具有显著提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。