[论文解读] Video-P2P: Video Editing with Cross-attention Control
Video-P2P 通过改造一个预训练的图像扩散模型,使其能够进行跨注意力控制的文本驱动现实世界视频编辑,在实现局部与全局编辑的同时提升时间一致性。
This paper presents Video-P2P, a novel framework for real-world video editing with cross-attention control. While attention control has proven effective for image editing with pre-trained image generation models, there are currently no large-scale video generation models publicly available. Video-P2P addresses this limitation by adapting an image generation diffusion model to complete various video editing tasks. Specifically, we propose to first tune a Text-to-Set (T2S) model to complete an approximate inversion and then optimize a shared unconditional embedding to achieve accurate video inversion with a small memory cost. For attention control, we introduce a novel decoupled-guidance strategy, which uses different guidance strategies for the source and target prompts. The optimized unconditional embedding for the source prompt improves reconstruction ability, while an initialized unconditional embedding for the target prompt enhances editability. Incorporating the attention maps of these two branches enables detailed editing. These technical designs enable various text-driven editing applications, including word swap, prompt refinement, and attention re-weighting. Video-P2P works well on real-world videos for generating new characters while optimally preserving their original poses and scenes. It significantly outperforms previous approaches.
研究动机与目标
- 说明如何让扩散模型实现对现实世界视频的文本驱动编辑。
- 开发一种反演与注意力控制流程,确保跨帧的时间一致性。
- 提出实现局部编辑(如单词替换)而不改变周围内容的机制。
- 在真实视频上展示该方法的可行性与有效性,并与现有方法进行比较。
提出的方法
- 将预训练的图像扩散模型转换为文本到集合(T2S)模型,以实现帧一致的反演。
- 优化一个共享的无条件嵌入以在较低内存开销下实现准确的视频反演。
- 引入解耦引导的注意力控制策略,使用来源提示和目标提示的不同引导并融合它们的注意力图。
- 在 T2S 模型中微调帧级注意力和时间注意力,以支持视频反演。
- 在推理阶段通过替换或细化注意力图来执行从提示到提示的编辑。
- 应用跨注意力控制,以在保持姿态和场景不变的前提下实现单词替换、提示细化和注意力重加权。
实验结果
研究问题
- RQ1是否可以将预训练的图像扩散模型改造成执行详细、时间一致的视频编辑?
- RQ2如何设计反演与注意力控制以在视频场景中同时支持重建与可编辑性?
- RQ3在源提示与目标提示中使用分离的引导是否能提升跨注意力编辑在视频中的质量?
- RQ4在不削弱无关区域或时间一致性的前提下,局部编辑能达到的程度如何?
主要发现
- Video-P2P 实现了具有跨注意力控制的局部与全局视频编辑。
- 用于视频反演的共享无条件嵌入在较小的内存开销下提升了重建质量。
- 一种解耦引导策略,结合源优化和目标初始化的嵌入,提升了可编辑性与稳定性。
- 结合来自两个分支的注意力图可获得更好的编辑质量与时间连贯性。
- Video-P2P 在保留原始姿态和场景方面优于现有方法,且在定性和用户研究中表现更优。
- 量化分析表明,与替代方法相比,在跨帧结构保持和语义一致性方面有改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。