[论文解读] Search2Motion: Training-Free Object-Level Motion Control via Attention-Consensus Search
Search2Motion 通过目标帧控制、语义引导的对象放置以及 ACE-Seed 注意力基的种子选择,结合新的面向对象的基准,实现了图像到视频生成中的对象层级运动编辑,无需重新训练。
We present Search2Motion, a training-free framework for object-level motion editing in image-to-video generation. Unlike prior methods requiring trajectories, bounding boxes, masks, or motion fields, Search2Motion adopts target-frame-based control, leveraging first-last-frame motion priors to realize object relocation while preserving scene stability without fine-tuning. Reliable target-frame construction is achieved through semantic-guided object insertion and robust background inpainting. We further show that early-step self-attention maps predict object and camera dynamics, offering interpretable user feedback and motivating ACE-Seed (Attention Consensus for Early-step Seed selection), a lightweight search strategy that improves motion fidelity without look-ahead sampling or external evaluators. Noting that existing benchmarks conflate object and camera motion, we introduce S2M-DAVIS and S2M-OMB for stable-camera, object-only evaluation, alongside FLF2V-obj metrics that isolate object artifacts without requiring ground-truth trajectories. Search2Motion consistently outperforms baselines on FLF2V-obj and VBench.
研究动机与目标
- 在不重新训练或不依赖辅助控制信号的情况下,使对象级运动编辑变得可访问。
- 通过使用首帧-末帧条件,将对象运动与相机/背景动态分离。
- 通过早期步骤自注意力映射提供可解释的用户反馈。
- 引入 ACE-Seed 以在无前瞻采样或外部评估者的情况下提升运动保真度。
- 提出专门的基准和指标,用于评估对象级运动保真度。
提出的方法
- 将对象运动编辑重新表述为 FLF2V(首帧到末帧)视频生成任务。
- 通过语义引导的对象放置和背景修复,构建一个语义上合理的目标末帧。
- 将结束帧合成为编码所需对象变换的复合帧,然后以首帧与合成末帧为条件生成视频。
- 使用早期步骤扩散自注意力映射预览对象和相机动态,并引导用户放置选择。
- 引入 ACE-Seed,一种注意力共识、噪声种子选择策略,通过与共识的早期步骤注意力相似性对种子进行排序,从而减少运动伪影。
- 提出面向对象的 FLF2V 基准(S2M-DAVIS、S2M-OMB)和 FLF2V-obj 指标,以将对象运动保真度与背景/相机变化分离。
实验结果
研究问题
- RQ1对象级运动编辑在不进行训练或不使用特定模型控制信号的情况下是否可行?
- RQ2如何利用目标帧引导在静态背景中进行合理的对象重新定位?
- RQ3早期步骤的注意力映射是否能预测后续的对象/相机动态,从而提供可解释的用户反馈?
- RQ4在没有外部评估者或前瞻采样的情况下,注意力共识的种子选择(ACE-Seed)是否能提升运动保真度?
- RQ5新提出的面向对象的基准与指标是否比现有的整帧指标更能诊断对象级运动保真度?
主要发现
- Search2Motion 在训练自由的设置中实现了可靠的对象重定位和时间连续的运动。
- ACE-Seed 通过选择具有强烈早期步骤注意力共识的种子,持续提升运动保真度,降低对不走运初始值的敏感性。
- FLF2V-obj 指标比传统整帧指标更准确地反映对象级保真度,并与人类评估偏好保持一致。
- S2M-DAVIS 与 S2M-OMB 基准使对象运动从相机/背景动态中得到分离,并揭示对象中心化编辑管线的优势。
- 与基于轨迹的基线相比,Search2Motion 在对象级保真度和在评估场景中目标放置的一致性方面表现更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。