[论文解读] Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion
Tri-Prompting 提出一个统一的视频扩散框架,通过双条件(3D XYZ 场景线索和低分辨率 RGB 主体线索) jointly 控制场景、多视角主体身份和运动,采用两阶段训练流程。
Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.
研究动机与目标
- 在 AI 视频创作中实现对场景、主体和运动的统一、细粒度控制的需求动机。
- 提出 Tri-Prompting,将场景构图、多视角主体一致性和运动控制整合到单一模型中。
- 开发两阶段训练流程,融合场景/主体控制与双条件运动信号。
- 在运动准确性和多视角身份保留方面,展示相对于专门化基线的改进。
提出的方法
- 提出一个统一的 Tri-Prompting 框架,输入为:(i)带文本提示的场景图像;(ii)最多三张主体的多视角参考图像;(iii)带 XYZ 轨迹和下采样 RGB 网格的运动驱动视频。
- 使用两阶段训练策略:阶段1 在场景/主体控制上对基础视频扩散模型进行 LoRA 微调;阶段2 微调 ControlNet 以实现双条件运动控制(场景/背景 XYZ + 主体 RGB 代理)。
- 采用双条件运动:通过背景的 3D XYZ 跟踪点实现背景运动,通过低分辨率 RGB 网格实现前景运动,融合成一个空间上独占的锚点视频用于 ControlNet 条件。
- 在推理阶段,应用 ControlNet 比例调度,以在可控性和真实感之间取得平衡,并支持如 3D 感知主体插入与图像内操作等新工作流。
实验结果
研究问题
- RQ1一个单一视频扩散模型是否能在极端姿态变化下同时且鲁棒地控制场景、跨视角的主体身份和运动(相机和对象)?
- RQ2双条件(XYZ 场景线索 + 低分辨率 RGB 主体线索)是否比单信号基线在 3D 一致性和多视角身份方面有提升?
- RQ3多视角主体参考和两阶段训练是否比之前的专用方法在 3D 一致性和运动准确性上更优?
- RQ4统一的三重提示控制将带来哪些新工作流(如 3D 感知的主体插入、图像内操作等)?
主要发现
- Tri-Prompting 在运动准确性和多视角身份保留方面优于专用基线(DaS 和 Phantom)。
- 阶段2 使用 ControlNet 的双条件比阶段1 在 3D 一致性和多视角身份方面表现更好。
- 使用 3 视图或以上的主体参考相比单视图输入能改善 3D 对齐和身份相似性。
- 推理过程中的控制网比例调度比保持固定比例更能实现更平滑、更真实的运动。
- 该方法实现了如 3D 感知主体插入和场景–主体联合运动控制等新工作流,同时保持身份稳定。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。