[论文解读] ModelScope Text-to-Video Technical Report
ModelScopeT2V 是一个开源的扩散式文本到视频模型,基于 Stable Diffusion 架构,具备时空块和多帧训练,能够从文本提示生成连贯的视频。它在定量结果上具有竞争力,并为未来的视频合成研究提供了一个可访问的基线。
This paper introduces ModelScopeT2V, a text-to-video synthesis model that evolves from a text-to-image synthesis model (i.e., Stable Diffusion). ModelScopeT2V incorporates spatio-temporal blocks to ensure consistent frame generation and smooth movement transitions. The model could adapt to varying frame numbers during training and inference, rendering it suitable for both image-text and video-text datasets. ModelScopeT2V brings together three components (i.e., VQGAN, a text encoder, and a denoising UNet), totally comprising 1.7 billion parameters, in which 0.5 billion parameters are dedicated to temporal capabilities. The model demonstrates superior performance over state-of-the-art methods across three evaluation metrics. The code and an online demo are available at \url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}.
研究动机与目标
- 推动开放、可获取的基于扩散的文本到视频生成,并为视频合成建立一个实用基线。
- 将文本到图像的扩散框架扩展为具备时序能力的视频生成。
- 利用图像-文本和视频-文本数据来丰富语义理解和时序动态。
- 提供一种在不同帧数和数据集上稳定学习的训练策略。
提出的方法
- 在潜在扩散中扩展一个时空块,用于联合时空建模。
- 通过交叉注意力注入文本,使用 CLIP ViT-H/14 编码器实现语言-视觉对齐。
- 在潜在空间中使用 VQGAN 编码/解码来处理高分辨率数据。
- 应用一个多帧训练流程,使用图像-文本和视频-文本数据以扩大语义覆盖。
- 使用 DDPM 和 DDIM 采样进行训练,结合时域卷积和时域注意力来捕捉运动。
实验结果
研究问题
- RQ1如何将基于扩散的模型扩展为从文本提示生成连贯的视频序列?
- RQ2结合图像-文本和视频-文本训练数据是否能提高视频合成的语义丰富性与时序一致性?
- RQ3哪些结构组件(时空块)和训练策略能够在标准基准上获得具有竞争力的视频生成质量?
主要发现
| 模型 | FID-vid (↓) | FVD (↓) | CLIPSIM (↑) |
|---|---|---|---|
| NÜWA | 47.68 | - | 0.2439 |
| CogVideo (Chinese) | 24.78 | - | 0.2614 |
| CogVideo (English) | 23.59 | 1294 | 0.2631 |
| MagicVideo | - | 1290 | - |
| Video LDM | - | - | 0.2929 |
| Make-A-Video | 13.17 | - | 0.3049 |
| ModelScopeT2V (ours) | 11.09 | 550 | 0.2930 |
- ModelScopeT2V 在所列基线中在 MSR-VTT 上取得最佳的 FID-vid 与 FVD 分数(FID-vid 11.09,FVD 550)。
- CLIPSIM 得分为 0.2930,表明与提示的语义对齐度很强,与 Make-A-Video 相当。
- 时序建模受益于时域卷积和时域注意力在时空块内的共同作用,有助于提升运动真实感。
- 该模型约有 17 亿参数,其中 39% 专用于时序能力(1,345M 的 552M)。
- 零样本 MSR-VTT 评估在无需任务特定微调的情况下也显示出竞争力的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。