[论文解读] Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation
Show-1 将基于像素的关键帧生成与潜在扩散上采样相结合,生成高分辨率、文本对齐的视频,同时降低推理内存占用。通过两阶段上采样管线,在低成本下实现强文本-视频对齐。
Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution, which can also remove potential artifacts and corruptions from low-resolution videos. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). Furthermore, our Show-1 model can be readily adapted for motion customization and video stylization applications through simple temporal attention layer finetuning. Our model achieves state-of-the-art performance on standard video generation benchmarks. Our code and model weights are publicly available at https://github.com/showlab/Show-1.
研究动机与目标
- 激励结合基于像素的扩散模型与潜在扩散模型,以在文本-视频对齐与视觉保真之间取得平衡。
- 开发一个自粗到细的视频生成管线,包含低分辨率的基于像素的关键帧、时间插值,以及两阶段超分辨率。
- 在推理阶段降低计算成本,同时保持或提升文本到视频的对齐。
- 证明对潜在 VDM 的专家级翻译能够实现高质量的高分辨率细化。
- 在标准基准(UCF-101、MSR-VTT)上验证该方法,并通过人类评估进行评估。
提出的方法
- 在低分辨率下使用像素级的 Video UNet 来生成具有强文本-视频对齐的关键帧。
- 引入一个带有像素扩散的时序插值模块,在提升时间分辨率的同时保持对齐。
- 应用两阶段超分辨率:(i) 基于像素的上采样到中间分辨率;(ii) 基于潜在的专家级翻译以高分辨率实现更高的细节,但成本更低。
- 使用潜在基 VDM 进行高分辨率细化,训练仅限于 timesteps 0–900 以充当专家翻译。
- 在 2D UNet 块中引入时间层(时间卷积和时间注意力)以建模运动。
- 在 WebVid-10M 上进行训练和评估,并在 UCF-101 和 MSR-VTT 基准上进行评估。
实验结果
研究问题
- RQ1是否可以通过混合模型:在低分辨率关键帧使用像素扩散,在高分辨率上采用潜在扩散,从而在更低计算成本下实现更优的文本-视频对齐和视觉保真度?
- RQ2在不同阶段(低分辨率关键帧、插值、上采样)使用像素基与潜在基模块对文本-视频对齐和质量的影响是什么?
- RQ3在潜在基 VDMs 中使用专家翻译(0–900 timesteps)是否比标准的 0–1000 timesteps 提高高分辨率细化的效果?
- RQ4相较于最先进的方法,Show-1 在标准基准(UCF-101、MSR-VTT)上的表现如何?
主要发现
- Show-1 在推理阶段以 15G GPU 内存实现了强文本-视频对齐和高视觉质量。
- 在 MSR-VTT 上,Show-1 获得最佳 FID-vid (13.08) 和 FVD (538),CLIPSIM 为 0.3072。
- 在 UCF-101 上,Show-1 展示出具有竞争力的 IS (35.42) 和 FVD (394.46)。
- 一项消融研究显示,低分辨率像素基关键帧+高分辨率潜在翻译在计算成本低于全像素或全潜在基基线的情况下,带来最佳 CLIPSIM。
- 人类评估在视频质量和文本-视频对齐方面更偏好 Show-1,优于 ModelScope 和 ZeroScope(在各指标上的多数偏好)。
- 对组合的消融研究确认:像素基低分辨率 + 潜在高分辨率是对齐与效率的最优权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。