QUICK REVIEW

[論文レビュー] Search2Motion: Training-Free Object-Level Motion Control via Attention-Consensus Search

Sainan Liu, Tz-Ying Wu|arXiv (Cornell University)|Mar 17, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

Search2Motion は、ターゲットフレーム制御、セマンティックガイド付きオブジェクト配置、ACE-Seed アテンションベースのシード選択を用いた画像から動画生成における訓練不要のオブジェクトレベル運動編集を実現し、新しい S2M ベンチマークでオブジェクトのみの評価を行う。

ABSTRACT

We present Search2Motion, a training-free framework for object-level motion editing in image-to-video generation. Unlike prior methods requiring trajectories, bounding boxes, masks, or motion fields, Search2Motion adopts target-frame-based control, leveraging first-last-frame motion priors to realize object relocation while preserving scene stability without fine-tuning. Reliable target-frame construction is achieved through semantic-guided object insertion and robust background inpainting. We further show that early-step self-attention maps predict object and camera dynamics, offering interpretable user feedback and motivating ACE-Seed (Attention Consensus for Early-step Seed selection), a lightweight search strategy that improves motion fidelity without look-ahead sampling or external evaluators. Noting that existing benchmarks conflate object and camera motion, we introduce S2M-DAVIS and S2M-OMB for stable-camera, object-only evaluation, alongside FLF2V-obj metrics that isolate object artifacts without requiring ground-truth trajectories. Search2Motion consistently outperforms baselines on FLF2V-obj and VBench.

研究の動機と目的

retraining や補助的な制御信号なしで、オブジェクトレベルの運動編集を利用可能にすること。
カメラ・背景の動的変化からオブジェクトの運動を分離するため、最初のフレームと最後のフレームの条件を用いること。
初期段階の自己注意マップを通じて interpretable なユーザーフィードバックを提供すること。
外部評価者やルックアヘッドサンプリングなしで運動忠実度を改善する ACE-Seed の導入。
オブジェクト中心の FLF2V ベンチマークとオブジェクトレベルの忠実度を評価する指標を提案すること。

提案手法

オブジェクト運動編集を FLF2V（first-frame to last-frame）ビデオ生成タスクへ再定式化する。
セマンティックガイド付きオブジェクト配置と背景のインペイントにより、意味的に妥当なターゲット最後のフレームを構築する。
最後のフレームを望ましいオブジェクト変換を符号化する合成に統合し、最初のフレームと合成された最後のフレームに応じてビデオを生成する。
初期段階の拡散自己注意マップを用いてオブジェクトとカメラのダイナミクスをプレビューし、ユーザーの配置選択をガイドする。
ACE-Seed を導入する。これはアテンション合意とノイズシード選択戦略で、初期段階のアテンション類似度に基づいてシードをランキングし、運動アーチファクトを低減する。
オブジェクト中心のFLF2Vベンチマーク（S2M-DAVIS, S2M-OMB）と、背景/カメラ変化からオブジェクト運動忠実度を分離する FLF2V-obj 指標を提案する。

実験結果

リサーチクエスチョン

RQ1 オブジェクトレベルの運動編集は訓練やモデル固有の制御信号なしで達成できるか。
RQ2 静的背景内での意味のあるオブジェ relocatingを導くためにターゲットフレーム指導をどのように活用できるか。
RQ3 初期段階のアテンションマップは下流のオブジェクト/カメラダイナミクスを予測し、解釈可能なユーザーフィードバックを可能にするか。
RQ4 ACE-Seed によるアテンション合意シード選択は外部評価者やルックアヘッド Sampling なしで運動忠実度を改善するか。
RQ5 新しいオブジェクト中心のベンチマークと指標は、既存の全画面指標よりオブジェクトレベルの忠実度をより良く診断するか。

主な発見

Dataset	Method	Subject Consistency	Background Consistency	Temporal Flickering	Motion Smoothness	Aesthetic Quality	Imaging Quality
S2M-OMB	DragAnything	89.73	92.13	95.15	97.62	55.06	57.94
TTM - Wan2.2-5B	Wan2.2-5B [ singer2025ttm ]	93.92	95.29	98.00	98.59	59.42	70.03
Search2Motion - VACE-1.3B		94.77	95.98	97.99	98.75	61.96	71.34
Search2Motion - Wan2.2-5B		95.19	96.07	99.00	99.45	56.86	71.54

Search2Motion は訓練不要の設定で信頼性の高いオブジェクト再配置と時間的一貫性のある運動を実現する。
ACE-Seed は初期段階のアテンション合意が強いシードを選択することで運動忠実度を一貫して改善し、不運な初期化に対する感度を低減する。
FLF2V-obj 指標は伝統的な全画面指標よりオブジェクトレベルの忠実度をより正確に反映し、評価時の人間の嗜好と一致する。
S2M-DAVIS と S2M-OMB ベンチマークはオブジェクト運動をカメラ/背景動態から分離することを可能にし、オブジェクト中心編集パイプラインの強みを明らかにする。
trajactory ベースのベースラインと比較して、Search2Motion はオブジェクトレベル忠実度が高く、評価されたシナリオで望ましいターゲット配置がより安定している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。