Skip to main content
QUICK REVIEW

[论文解读] ModelScope Text-to-Video Technical Report

Jiuniu Wang, Hangjie Yuan|arXiv (Cornell University)|Aug 12, 2023
Generative Adversarial Networks and Image Synthesis被引用 46
一句话总结

ModelScopeT2V 是一个开源的扩散式文本到视频模型,基于 Stable Diffusion 架构,具备时空块和多帧训练,能够从文本提示生成连贯的视频。它在定量结果上具有竞争力,并为未来的视频合成研究提供了一个可访问的基线。

ABSTRACT

This paper introduces ModelScopeT2V, a text-to-video synthesis model that evolves from a text-to-image synthesis model (i.e., Stable Diffusion). ModelScopeT2V incorporates spatio-temporal blocks to ensure consistent frame generation and smooth movement transitions. The model could adapt to varying frame numbers during training and inference, rendering it suitable for both image-text and video-text datasets. ModelScopeT2V brings together three components (i.e., VQGAN, a text encoder, and a denoising UNet), totally comprising 1.7 billion parameters, in which 0.5 billion parameters are dedicated to temporal capabilities. The model demonstrates superior performance over state-of-the-art methods across three evaluation metrics. The code and an online demo are available at \url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}.

研究动机与目标

  • 推动开放、可获取的基于扩散的文本到视频生成,并为视频合成建立一个实用基线。
  • 将文本到图像的扩散框架扩展为具备时序能力的视频生成。
  • 利用图像-文本和视频-文本数据来丰富语义理解和时序动态。
  • 提供一种在不同帧数和数据集上稳定学习的训练策略。

提出的方法

  • 在潜在扩散中扩展一个时空块,用于联合时空建模。
  • 通过交叉注意力注入文本,使用 CLIP ViT-H/14 编码器实现语言-视觉对齐。
  • 在潜在空间中使用 VQGAN 编码/解码来处理高分辨率数据。
  • 应用一个多帧训练流程,使用图像-文本和视频-文本数据以扩大语义覆盖。
  • 使用 DDPM 和 DDIM 采样进行训练,结合时域卷积和时域注意力来捕捉运动。

实验结果

研究问题

  • RQ1如何将基于扩散的模型扩展为从文本提示生成连贯的视频序列?
  • RQ2结合图像-文本和视频-文本训练数据是否能提高视频合成的语义丰富性与时序一致性?
  • RQ3哪些结构组件(时空块)和训练策略能够在标准基准上获得具有竞争力的视频生成质量?

主要发现

模型FID-vid (↓)FVD (↓)CLIPSIM (↑)
NÜWA47.68-0.2439
CogVideo (Chinese)24.78-0.2614
CogVideo (English)23.5912940.2631
MagicVideo-1290-
Video LDM--0.2929
Make-A-Video13.17-0.3049
ModelScopeT2V (ours)11.095500.2930
  • ModelScopeT2V 在所列基线中在 MSR-VTT 上取得最佳的 FID-vid 与 FVD 分数(FID-vid 11.09,FVD 550)。
  • CLIPSIM 得分为 0.2930,表明与提示的语义对齐度很强,与 Make-A-Video 相当。
  • 时序建模受益于时域卷积和时域注意力在时空块内的共同作用,有助于提升运动真实感。
  • 该模型约有 17 亿参数,其中 39% 专用于时序能力(1,345M 的 552M)。
  • 零样本 MSR-VTT 评估在无需任务特定微调的情况下也显示出竞争力的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。