[论文解读] VideoComposer: Compositional Video Synthesis with Motion Controllability
VideoComposer 引入一种以组合扩散为基础的视频合成框架,通过 Spatio-Temporal Condition 编码器来实现与文本、空间线索和时间信号(尤其是运动向量)共同条件,以实现高帧间一致性和可控运动。
The pursuit of controllability as a higher standard of visual content creation has yielded remarkable progress in customizable image synthesis. However, achieving controllable video synthesis remains challenging due to the large variation of temporal dynamics and the requirement of cross-frame temporal consistency. Based on the paradigm of compositional generation, this work presents VideoComposer that allows users to flexibly compose a video with textual conditions, spatial conditions, and more importantly temporal conditions. Specifically, considering the characteristic of video data, we introduce the motion vector from compressed videos as an explicit control signal to provide guidance regarding temporal dynamics. In addition, we develop a Spatio-Temporal Condition encoder (STC-encoder) that serves as a unified interface to effectively incorporate the spatial and temporal relations of sequential inputs, with which the model could make better use of temporal conditions and hence achieve higher inter-frame consistency. Extensive experimental results suggest that VideoComposer is able to control the spatial and temporal patterns simultaneously within a synthesized video in various forms, such as text description, sketch sequence, reference video, or even simply hand-crafted motions. The code and models will be publicly available at https://videocomposer.github.io.
研究动机与目标
- 通过加入空间和时间控制,推动超越文本提示的可控视频合成。
- 提出一个三因子条件化范式(文本、空间、时间)用于视频。
- 引入基于运动向量的时间条件以引导帧间动态。
- 开发一个时空条件编码器(STC-encoder)以统一并融合序列条件。
- 展示在多样化条件集下的灵活生成能力,包括手工设计的运动。
提出的方法
- 采用在经过预训练的编码器/解码器下,在压缩视频潜在空间中运行的潜隐扩散模型(VLDM)。
- 将每个视频输入分解为文本、空间和时间条件,以用于对去噪器进行条件化。
- 使用来自 MPEG-4 压缩视频的运动向量作为显式的时间指导。
- 引入 STC-encoder,通过一个轻量级的空间模块加上一个时间变换器来提取并融合时空信息。
- 通过通道级拼接将 STC 编码条件与视频潜在表示融合,并应用交叉注意力以获取文本/风格引导。
- 分两阶段训练:先进行文本到视频的时间预训练,然后进行包含多样化条件的组合训练。
实验结果
研究问题
- RQ1如何在一个统一框架中通过结合文本、空间和时间线索来控制视频合成?
- RQ2将运动向量作为显式时间信号是否能提高帧间一致性和运动可控性?
- RQ3STC-encoder 能否有效融合连续的空间和时间条件,在不同输入下提升视频质量?
- RQ4STC-encoder 和运动引导对逐帧一致性和运动精度的影响?
- RQ5VideoComposer 在处理手工设计的运动、素描、深度图和掩模用于视频生成方面有多大灵活性?
主要发现
- 在将运动向量用作时间条件时,VideoComposer 实现了更好的运动可控性。
- STC-encoder 的加入进一步提升了跨输入的帧一致性(文本+素描/深度/运动向量)。
- 与不含 STC-encoder 的基线相比,VideoComposer 获得更高的帧一致性分数和更低的运动控制误差。
- VideoComposer 展示了跨多种条件类型的组合视频生成能力,包括文本、素描、深度图和掩模,同时保持生成质量。
- 运动向量优先考虑移动区域,使运动控制比仅表层的时间线索更灵活、精确。
- 消融实验表明 STC-encoder 对定性保真度和定量帧一致性均有贡献。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。