QUICK REVIEW

[论文解读] Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation

David Junhao Zhang, Jay Zhangjie Wu|arXiv (Cornell University)|Sep 27, 2023

Generative Adversarial Networks and Image Synthesis被引用 15

一句话总结

Show-1 将基于像素的关键帧生成与潜在扩散上采样相结合，生成高分辨率、文本对齐的视频，同时降低推理内存占用。通过两阶段上采样管线，在低成本下实现强文本-视频对齐。

ABSTRACT

Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution, which can also remove potential artifacts and corruptions from low-resolution videos. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). Furthermore, our Show-1 model can be readily adapted for motion customization and video stylization applications through simple temporal attention layer finetuning. Our model achieves state-of-the-art performance on standard video generation benchmarks. Our code and model weights are publicly available at https://github.com/showlab/Show-1.

研究动机与目标

激励结合基于像素的扩散模型与潜在扩散模型，以在文本-视频对齐与视觉保真之间取得平衡。
开发一个自粗到细的视频生成管线，包含低分辨率的基于像素的关键帧、时间插值，以及两阶段超分辨率。
在推理阶段降低计算成本，同时保持或提升文本到视频的对齐。
证明对潜在 VDM 的专家级翻译能够实现高质量的高分辨率细化。
在标准基准（UCF-101、MSR-VTT）上验证该方法，并通过人类评估进行评估。

提出的方法

在低分辨率下使用像素级的 Video UNet 来生成具有强文本-视频对齐的关键帧。
引入一个带有像素扩散的时序插值模块，在提升时间分辨率的同时保持对齐。
应用两阶段超分辨率：(i) 基于像素的上采样到中间分辨率；(ii) 基于潜在的专家级翻译以高分辨率实现更高的细节，但成本更低。
使用潜在基 VDM 进行高分辨率细化，训练仅限于 timesteps 0–900 以充当专家翻译。
在 2D UNet 块中引入时间层（时间卷积和时间注意力）以建模运动。
在 WebVid-10M 上进行训练和评估，并在 UCF-101 和 MSR-VTT 基准上进行评估。

实验结果

研究问题

RQ1是否可以通过混合模型：在低分辨率关键帧使用像素扩散，在高分辨率上采用潜在扩散，从而在更低计算成本下实现更优的文本-视频对齐和视觉保真度？
RQ2在不同阶段（低分辨率关键帧、插值、上采样）使用像素基与潜在基模块对文本-视频对齐和质量的影响是什么？
RQ3在潜在基 VDMs 中使用专家翻译（0–900 timesteps）是否比标准的 0–1000 timesteps 提高高分辨率细化的效果？
RQ4相较于最先进的方法，Show-1 在标准基准（UCF-101、MSR-VTT）上的表现如何？

主要发现

Show-1 在推理阶段以 15G GPU 内存实现了强文本-视频对齐和高视觉质量。
在 MSR-VTT 上，Show-1 获得最佳 FID-vid (13.08) 和 FVD (538)，CLIPSIM 为 0.3072。
在 UCF-101 上，Show-1 展示出具有竞争力的 IS (35.42) 和 FVD (394.46)。
一项消融研究显示，低分辨率像素基关键帧+高分辨率潜在翻译在计算成本低于全像素或全潜在基基线的情况下，带来最佳 CLIPSIM。
人类评估在视频质量和文本-视频对齐方面更偏好 Show-1，优于 ModelScope 和 ZeroScope（在各指标上的多数偏好）。
对组合的消融研究确认：像素基低分辨率 + 潜在高分辨率是对齐与效率的最优权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。