Skip to main content
QUICK REVIEW

[论文解读] Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation

Jiaxi Gu, Shicong Wang|arXiv (Cornell University)|Sep 7, 2023
Generative Adversarial Networks and Image Synthesis被引用 9
一句话总结

VidRD 引入一个迭代的、单一 LDM 框架,通过重用与扩散潜在特征来生成长时序、时序一致的文本到视频片段,结合时序感知解码器微调和多样数据组成策略。与级联方法相比,在UCF-101上实现具有竞争力的 FVD 和 IS,同时降低训练复杂度。

ABSTRACT

Inspired by the remarkable success of Latent Diffusion Models (LDMs) for image synthesis, we study LDM for text-to-video generation, which is a formidable challenge due to the computational and memory constraints during both model training and inference. A single LDM is usually only capable of generating a very limited number of video frames. Some existing works focus on separate prediction models for generating more video frames, which suffer from additional training cost and frame-level jittering, however. In this paper, we propose a framework called "Reuse and Diffuse" dubbed $ extit{VidRD}$ to produce more frames following the frames already generated by an LDM. Conditioned on an initial video clip with a small number of frames, additional frames are iteratively generated by reusing the original latent features and following the previous diffusion process. Besides, for the autoencoder used for translation between pixel space and latent space, we inject temporal layers into its decoder and fine-tune these layers for higher temporal consistency. We also propose a set of strategies for composing video-text data that involve diverse content from multiple existing datasets including video datasets for action recognition and image-text datasets. Extensive experiments show that our method achieves good results in both quantitative and qualitative evaluations. Our project page is available $\href{https://anonymous0x233.github.io/ReuseAndDiffuse/}{here}$.

研究动机与目标

  • 在计算资源受限的情况下,利用潜在扩散模型(LDM)推动文本到视频的合成。
  • 开发一个统一的迭代框架,通过重用初始片段的潜在特征来生成长且连贯的视频。
  • 通过解码器中的时序层和时序感知 U-Net 提升时序一致性。
  • 提出数据组成策略,利用图像-文本和动作识别视频数据集实现稳健训练。

提出的方法

  • 以预训练的 Stable Diffusion LDM 为基础,并在 U-Net 中引入时序层(Temp-Conv 与 Temp-Attn)。
  • 将时序层注入自编码器解码器中,并仅微调添加的时序组件。
  • 引入三种迭代生成模块:帧级噪声还原(FNR)、基于过去的噪声采样(PNS)和分阶段引导的去噪(DSG)。
  • 在跨片段的反向顺序中重用初始噪声(FNR);在后几帧中注入新的随机噪声(PNS);应用分阶段引导以保持一致性同时允许新的内容(DSG)。
  • 通过将图像-文本数据集转化为伪视频、用 BLIP-2 给短视频标注、并用 CLIP 与 MiniGPT-4 对长视频进行分段来组成视频-文本数据。

实验结果

研究问题

  • RQ1如何在不训练单独预测组件的情况下,使用单一扩散模型生成长时序且时序一致的视频?
  • RQ2哪些机制(FNR、PNS、DSG)能改善时序一致性并减少跨视频片段的内容循环?
  • RQ3多源数据集在现实可描述的条件下是否能有效训练 LDM 进行视频合成?
  • RQ4VidRD 在标准视频生成基准上在 FVD 和 IS 方面的表现如何?

主要发现

  • VidRD 在 UCF-101 上实现了具有竞争力的定量结果,FVD 为 363.19,IS 为 39.37。
  • 时序模块与迭代生成使得视频更长更平滑,无需多级级联模型。
  • 使用图像-文本和动作识别数据集的统一训练方法,获得稳健的视频-文本对齐以用于合成。
  • 帧级噪声还原、基于过去的噪声采样以及分阶段引导共同提升跨片段的时序一致性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。