QUICK REVIEW

[论文解读] ModelScope Text-to-Video Technical Report

Jiuniu Wang, Hangjie Yuan|arXiv (Cornell University)|Aug 12, 2023

Generative Adversarial Networks and Image Synthesis被引用 46

一句话总结

ModelScopeT2V 是一个开源的扩散式文本到视频模型，基于 Stable Diffusion 架构，具备时空块和多帧训练，能够从文本提示生成连贯的视频。它在定量结果上具有竞争力，并为未来的视频合成研究提供了一个可访问的基线。

ABSTRACT

This paper introduces ModelScopeT2V, a text-to-video synthesis model that evolves from a text-to-image synthesis model (i.e., Stable Diffusion). ModelScopeT2V incorporates spatio-temporal blocks to ensure consistent frame generation and smooth movement transitions. The model could adapt to varying frame numbers during training and inference, rendering it suitable for both image-text and video-text datasets. ModelScopeT2V brings together three components (i.e., VQGAN, a text encoder, and a denoising UNet), totally comprising 1.7 billion parameters, in which 0.5 billion parameters are dedicated to temporal capabilities. The model demonstrates superior performance over state-of-the-art methods across three evaluation metrics. The code and an online demo are available at \url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}.

研究动机与目标

推动开放、可获取的基于扩散的文本到视频生成，并为视频合成建立一个实用基线。
将文本到图像的扩散框架扩展为具备时序能力的视频生成。
利用图像-文本和视频-文本数据来丰富语义理解和时序动态。
提供一种在不同帧数和数据集上稳定学习的训练策略。

提出的方法

在潜在扩散中扩展一个时空块，用于联合时空建模。
通过交叉注意力注入文本，使用 CLIP ViT-H/14 编码器实现语言-视觉对齐。
在潜在空间中使用 VQGAN 编码/解码来处理高分辨率数据。
应用一个多帧训练流程，使用图像-文本和视频-文本数据以扩大语义覆盖。
使用 DDPM 和 DDIM 采样进行训练，结合时域卷积和时域注意力来捕捉运动。

实验结果

研究问题

RQ1如何将基于扩散的模型扩展为从文本提示生成连贯的视频序列？
RQ2结合图像-文本和视频-文本训练数据是否能提高视频合成的语义丰富性与时序一致性？
RQ3哪些结构组件（时空块）和训练策略能够在标准基准上获得具有竞争力的视频生成质量？

主要发现

模型	FID-vid (↓)	FVD (↓)	CLIPSIM (↑)
NÜWA	47.68	-	0.2439
CogVideo (Chinese)	24.78	-	0.2614
CogVideo (English)	23.59	1294	0.2631
MagicVideo	-	1290	-
Video LDM	-	-	0.2929
Make-A-Video	13.17	-	0.3049
ModelScopeT2V (ours)	11.09	550	0.2930

ModelScopeT2V 在所列基线中在 MSR-VTT 上取得最佳的 FID-vid 与 FVD 分数（FID-vid 11.09，FVD 550）。
CLIPSIM 得分为 0.2930，表明与提示的语义对齐度很强，与 Make-A-Video 相当。
时序建模受益于时域卷积和时域注意力在时空块内的共同作用，有助于提升运动真实感。
该模型约有 17 亿参数，其中 39% 专用于时序能力（1,345M 的 552M）。
零样本 MSR-VTT 评估在无需任务特定微调的情况下也显示出竞争力的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。