[论文解读] Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos
本文提出一个两阶段训练方案,将带姿态注释的图像数据和无姿态的视频转换为可姿态控制的文本到视频生成,利用具时间模块的预训练文本到图像模型以实现连贯视频。
Generating text-editable and pose-controllable character videos have an imperious demand in creating various digital human. Nevertheless, this task has been restricted by the absence of a comprehensive dataset featuring paired video-pose captions and the generative prior models for videos. In this work, we design a novel two-stage training scheme that can utilize easily obtained datasets (i.e.,image pose pair and pose-free video) and the pre-trained text-to-image (T2I) model to obtain the pose-controllable character videos. Specifically, in the first stage, only the keypoint-image pairs are used only for a controllable text-to-image generation. We learn a zero-initialized convolutional encoder to encode the pose information. In the second stage, we finetune the motion of the above network via a pose-free video dataset by adding the learnable temporal self-attention and reformed cross-frame self-attention blocks. Powered by our new designs, our method successfully generates continuously pose-controllable character videos while keeps the editing and concept composition ability of the pre-trained T2I model. The code and models will be made publicly available.
研究动机与目标
- 在缺乏姿态-视频配对数据的情况下,推动数字人群体的姿态可控视频生成。
- 利用大量的图像-姿态对和无姿态视频来训练一个具备视频能力的模型。
- 保持预训练文本到图像模型的语义编辑和构图能力。
- 实现带姿态引导的运动和基于文本的外观控制下的时序连贯视频。
提出的方法
- 在经由预训练的文本到图像扩散模型(Stable Diffusion)构建的两阶段训练方案。
- Stage 1 通过残差连接将多层姿态编码器注入 U-Net,以实现使用 LAION-Pose 数据的姿态条件图像生成。
- Stage 2 在姿态无视频数据上进行微调,通过膨胀模型为 3D,并添加时间自注意力和跨帧自注意力以实现时序连贯性。
- 每个阶段仅更新时序模块和姿态编码器参数,其余预训练模型参数保持冻结。
- 推理时将文本提示与姿态序列结合以生成可姿态控制的视频;采用 DDIM 采样并结合无分类器引导(classifier-free guidance)。
实验结果
研究问题
- RQ1是否可以从图像-姿态对中学习姿态控制,并通过时序建模将其转移到视频生成?
- RQ2解耦姿态条件和时序连贯性是否能改善姿态-视频对齐和时序稳定性?
- RQ3在极少量数据和参数更新下,是否能将预训练的 T2I 扩展到视频生成?
- RQ4在增加姿态控制的同时,该方法是否能保持原模型的概念生成能力和构图质量?
主要发现
| 方法 | CS | QU (%) | PA (%) | FC (%) |
|---|---|---|---|---|
| FOMM (Siarohin et al. 2019) | 22.93 | 0.8 | 11.7 | 81.25 |
| Everybody dance now (Chan et al. 2019) | 23.04 | 1.3 | 13.7 | 79.83 |
| Tune-A-Video (Wu et al. 2022) | 23.57 | 23.81 | 27.74 | 93.78 |
| ControlNet (Zhang and Agrawala 2023) | 22.31 | 6.69 | 33.23 | 54.35 |
| T2I adapter (Mou et al. 2023) | 22.42 | 8.27 | 33.47 | 53.86 |
| Masactrl (Cao et al. 2023) | 23.64 | 19.17 | 33.19 | 87.64 |
| Ours | 24.09 | 39.96 | 34.92 | 93.36 |
- 该方法在基于 CLIP 的视频-文本对齐方面优于若干基线。
- 主观评估显示该方法在视频质量方面优于 Tune-A-Video 和 ControlNet。
- 在 1024 视频样本上,姿态准确度与 ControlNet 相当。
- 该模型表现出强烈的帧一致性与时序连贯性,在连续性方面优于一些基线。
- 消融研究显示残差姿态编码比拼接更能保留生成质量,将控制注入到更多层能改善姿态帧对齐。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。