QUICK REVIEW

[论文解读] Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation

Jay Zhangjie Wu, Yixiao Ge|arXiv (Cornell University)|Dec 22, 2022

Generative Adversarial Networks and Image Synthesis被引用 27

一句话总结

Tune-A-Video 展示了如何通过在单个文本-视频对上微调预训练的文本到图像扩散模型，使用稀疏时空注意力和 DDIM 反演来实现时间一致性，从文本提示生成和编辑视频。

ABSTRACT

To replicate the success of text-to-image (T2I) generation, recent works employ large-scale video datasets to train a text-to-video (T2V) generator. Despite their promising results, such paradigm is computationally expensive. In this work, we propose a new T2V generation setting$\unicode{x2014}$One-Shot Video Tuning, where only one text-video pair is presented. Our model is built on state-of-the-art T2I diffusion models pre-trained on massive image data. We make two key observations: 1) T2I models can generate still images that represent verb terms; 2) extending T2I models to generate multiple images concurrently exhibits surprisingly good content consistency. To further learn continuous motion, we introduce Tune-A-Video, which involves a tailored spatio-temporal attention mechanism and an efficient one-shot tuning strategy. At inference, we employ DDIM inversion to provide structure guidance for sampling. Extensive qualitative and numerical experiments demonstrate the remarkable ability of our method across various applications.

研究动机与目标

通过利用在图像数据上训练的现有 T2I 模型，提出一个成本高效的 T2V 生成设置。
证明 T2I 模型可以表示动词驱动的运动并在扩展到时空域时产生一致的内容。
提出一个轻量级的 Tune-A-Video 框架，采用稀疏的时空注意力和有针对性的参数更新以保留预训练知识。
在推理阶段通过 DDIM 反演引入结构引导，以确保时序连贯的运动。

提出的方法

将二维潜在扩散模型（LDM）膨胀到时空域以实现视频生成。
引入稀疏的时空注意力（ST-Attn），对第一帧和前一帧进行注意，计算复杂度控制在 O(2mN^2)。
仅微调 ST-Attn 的投影矩阵（W^Q）并更新 Cross-Attn 的查询，同时保持 K 和 V 固定以保留先验知识。
使用 DDIM 反演从输入视频获取结构化潜在表示，并用经过编辑的提示引导采样以实现时序连贯输出。
使方法与个性化和条件化的 T2I 模型（如 DreamBooth、T2I-Adapter、ControlNet）兼容，以实现可控生成。
训练遵循标准的 LDM 目标；推理使用带有分类器自由引导的 DDIM 采样。

实验结果

研究问题

RQ1在单个文本-视频对上微调的预训练 T2I 扩散模型，是否能从编辑后的提示生成时序连贯的视频？
RQ2稀疏时空注意力加上选择性微调是否在实现运动控制的同时保留预训练知识？
RQ3DDIM 反演是否能为在采样过程中将输入运动转移到编辑后提示提供结构引导？

主要发现

Tune-A-Video 使用预训练的 T2I 模型仅用一个文本-视频对即可实现时序连贯的视频生成。
稀疏的 ST-Attn 加上选择性微调能够保持内容一致性并在高效更新的前提下实现运动自适应。
DDIM 反演提供的结构引导有助于在采样时将输入运动转移到编辑后的提示。
定性和定量实验表明 Tune-A-Video 在帧一致性和文本对齐方面优于基线。
该方法支持通过现有 T2I 适配器和基于扩散的编辑实现个性化与条件化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。