[论文解读] VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation
VideoGen 使用带有文本到图像参考的参考引导潜在扩散管线,生成高分辨率、时间一致性的视频,在标准 T2V 基准上实现最先进的结果,且对解码器不要求文本-视频训练数据。
In this paper, we present VideoGen, a text-to-video generation approach, which can generate a high-definition video with high frame fidelity and strong temporal consistency using reference-guided latent diffusion. We leverage an off-the-shelf text-to-image generation model, e.g., Stable Diffusion, to generate an image with high content quality from the text prompt, as a reference image to guide video generation. Then, we introduce an efficient cascaded latent diffusion module conditioned on both the reference image and the text prompt, for generating latent video representations, followed by a flow-based temporal upsampling step to improve the temporal resolution. Finally, we map latent video representations into a high-definition video through an enhanced video decoder. During training, we use the first frame of a ground-truth video as the reference image for training the cascaded latent diffusion module. The main characterises of our approach include: the reference image generated by the text-to-image model improves the visual fidelity; using it as the condition makes the diffusion model focus more on learning the video dynamics; and the video decoder is trained over unlabeled video data, thus benefiting from high-quality easily-available videos. VideoGen sets a new state-of-the-art in text-to-video generation in terms of both qualitative and quantitative evaluation. See \url{https://videogen.github.io/VideoGen/} for more samples.
研究动机与目标
- 利用大量图像-文本数据来推动高质量、时间上连贯的文本转视频生成。
- 通过使用高质量的 T2I 生成的参考图像来引导基于扩散的视频合成,从而提升视频内容保真度。
- 使能在未标注视频上训练视频解码器,以提升运动真实感和时间一致性。
- 开发带有基于光流的时间上采样的级联潜在扩散框架,以获得高定义输出。
提出的方法
- 使用冻结的文本到图像模型(Stable Diffusion)从输入文本提示生成参考图像。
- 使用以参考图像和文本提示为条件的参考引导级联潜在视频扩散模型,生成一系列低到中分辨率的潜在视频表示。
- 在潜在空间应用基于光流的时间超分辨模块,进行时间分辨率上采样(每步2x,最高8x)。
- 将潜在视频表示映射到高定义视频,通过从预训练的图像解码器初始化的增强型视频解码器,带有时间卷积与注意力机制。
- 在文本-视频对(WebVid-10M)上训练级联潜在扩散网络,同时在未配对的高质量视频上训练视频解码器和时间超分辨;训练时参考图像为视频首帧。
实验结果
研究问题
- RQ1由文本到图像模型生成的参考图像是否能提升保真度并引导文本转视频扩散中的运动学习?
- RQ2参考引导的潜在扩散,结合基于光流的时间上采样和独立的视频解码器,是否比以往的 T2V 方法在视觉保真度和时间一致性上有更高表现?
- RQ3在未配对视频上训练视频解码器如何影响运动真实感和整体视频质量?
- RQ4将高质量参考图像整合到扩散条件对标准 T2V 指标的影响如何?
主要发现
| 表 1:UCF-101 上的 T2V 结果 | 表 2:MSR-VTT 上的 T2V 结果 | ||||
|---|---|---|---|---|---|
| CogVideo (Chinese) | 是 | 是 | 480 × 480 | 23.55 | 751.34 |
| CogVideo (English) | 是 | 是 | 480 × 480 | 25.27 | 701.59 |
| Make-A-Video | 是 | 是 | 256 × 256 | 33.00 | 367.23 |
| Ours | 是 | 是 | 256 × 256 | 71.61 ± 0.24 | 554 ± 23 |
| TGANv2 | 否 | 否 | 128 × 128 | 26.60 ± 0.47 | - |
| DIGAN | 否 | 否 | - | 32.70 ± 0.35 | 577 ± 22 |
| MoCoGAN-HD | 否 | 否 | 256 × 256 | 33.95 ± 0.25 | 700 ± 24 |
| CogVideo | 是 | 是 | 160 × 160 | 50.46 | 626 |
| VDM | 否 | 否 | 64 × 64 | 57.80 ± 1.3 | - |
| LVDM | 否 | 否 | 256 × 256 | - | 372 ± 11 |
| TATS-base | 是 | 是 | 128 × 128 | 79.28 ± 0.38 | 278 ± 11 |
| Make-A-Video | 是 | 是 | 256 × 256 | 82.55 | 81.25 |
| Ours | 是 | 是 | 256 × 256 | 82.78 ± 0.34 | 345 ± 15 |
| GODIVA | 否 | 是 | 128 × 128 | 0.2402 | - |
| Nüwa | 否 | 336 × 336 | 0.2439 | - | |
| CogVideo (Chinese) | 是 | 是 | 480 × 480 | 0.2614 | - |
| CogVideo (English) | 是 | 是 | 480 × 480 | 0.2631 | - |
| Make-A-Video | 是 | 是 | 256 × 256 | 0.3049 | - |
| Ours | 是 | 是 | 256 × 256 | 0.3127 | - |
- VideoGen 在 UCF-101 与 MSR-VTT 的定性与定量评估中实现了最先进结果。
- 在零-shot 的 UCF-101 中,VideoGen 的 IS 得分为 71.61±0.24,优于基线(第二名约在 33–57 范围)。
- 在 MSR-VTT 上,VideoGen 在零-shot 设置中获得最高的平均 CLIPSIM 分数(0.3127)。
- 消融实验显示,去掉参考图像会降低 CLIPSIM(0.2534)和 IS(26.64±0.47),而包含 T2I 参考图像则提升两者指标。
- 基于光流的时间上采样相比非光流引导插值能改善帧连续性与稳定性。
- 在未配对视频上训练的视频解码器相比基线能产生更清晰的纹理和更好的时间平滑性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。