QUICK REVIEW

[논문 리뷰] Search2Motion: Training-Free Object-Level Motion Control via Attention-Consensus Search

Sainan Liu, Tz-Ying Wu|arXiv (Cornell University)|2026. 03. 17.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

Search2Motion은 타깃 프레임 제어, 의미-guided 객체 배치, 그리고 ACE-Seed 주의 기반 시드 선택을 활용하여 이미지-에서 비디오 생성에서 학습 없이 객체 수준의 모션 편집을 가능하게 하며, 새로운 객체 중심 벤치마크를 제공합니다.

ABSTRACT

We present Search2Motion, a training-free framework for object-level motion editing in image-to-video generation. Unlike prior methods requiring trajectories, bounding boxes, masks, or motion fields, Search2Motion adopts target-frame-based control, leveraging first-last-frame motion priors to realize object relocation while preserving scene stability without fine-tuning. Reliable target-frame construction is achieved through semantic-guided object insertion and robust background inpainting. We further show that early-step self-attention maps predict object and camera dynamics, offering interpretable user feedback and motivating ACE-Seed (Attention Consensus for Early-step Seed selection), a lightweight search strategy that improves motion fidelity without look-ahead sampling or external evaluators. Noting that existing benchmarks conflate object and camera motion, we introduce S2M-DAVIS and S2M-OMB for stable-camera, object-only evaluation, alongside FLF2V-obj metrics that isolate object artifacts without requiring ground-truth trajectories. Search2Motion consistently outperforms baselines on FLF2V-obj and VBench.

연구 동기 및 목표

재학습이나 보조 제어 신호 없이도 객체 수준의 모션 편집에 접근 가능하게 만든다.
첫 프레임-마지막 프레임 조건을 사용하여 카메라/배경 동작으로부터 객체 모션을 분리한다.
조기 스텝 자기 주의 맵을 통해 해석 가능한 사용자 피드백을 제공한다.
외부 평가자나 look-ahead 샘플링 없이 모션 충실도를 향상시키는 ACE-Seed를 도입한다.
객체 수준 모션 충실도를 평가하기 위한 전용 벤치마크와 지표를 제안한다.

제안 방법

객체 모션 편집을 FLF2V(첫 프레임에서 마지막 프레임) 비디오 생성 과제로 재정의한다.
의미-가이드된 객체 배치와 배경 인페인팅을 통해 의미적으로 타당한 대상 마지막 프레임을 구성한다.
마지막 프레임을 원하는 객체 변환을 인코딩하는 합성물로 합성한 뒤, 첫 프레임과 합성된 마지막 프레임에 조건화하여 비디오를 생성한다.
초기 스텝 확산 자기 주의 맵을 사용하여 객체 및 카메라 다이나믹스를 미리 보이고 사용자 배치 선택을 안내한다.
ACE-Seed를 도입한다. 이는 주의 합의(attention-consensus) 기반의 잡음 시드 선택 전략으로, 초기 스텝 주의 유사도를 합의와 비교해 시드를 순위화하고 모션 아티팩트를 감소시킨다.
객체 중심 FLF2V 벤치마크(S2M-DAVIS, S2M-OMB)와 FLF2V-obj 지표를 제안하여 배경/카메라 변화로부터 객체 모션 충실도를 분리 평가한다.

실험 결과

연구 질문

RQ1학습이나 모델 특화 제어 신호 없이도 객체 수준의 모션 편집이 가능할까?
RQ2타깃 프레임 가이던스를 정적 배경 내에서 설득력 있는 객체 재배치를 어떻게 안내할 수 있을까?
RQ3초기 스텝 주의 맵이 하류의 객체/카메라 다이나믹을 예측하여 해석 가능한 사용자 피드백을 가능하게 할까?
RQ4주의 합의 시드 선택(ACE-Seed)이 외부 평가자나 미리 보기 샘플링 없이 모션 충실도를 향상시킬까?
RQ5새로운 객체 중심 벤치마크와 지표가 기존의 전체 프레임 지표보다 객체 수준의 모션 충실도를 더 잘 진단할까?

주요 결과

데이터세트	방법	주제 일관성	배경 일관성	시간적 깜빡임	모션 매끄러움	심미적 품질	이미징 품질
S2M-OMB	DragAnything	89.73	92.13	95.15	97.62	55.06	57.94
TTM - Wan2.2-5B	Wan2.2-5B [ singer2025ttm ]	93.92	95.29	98.00	98.59	59.42	70.03
Search2Motion - VACE-1.3B		94.77	95.98	97.99	98.75	61.96	71.34
Search2Motion - Wan2.2-5B		95.19	96.07	99.00	99.45	56.86	71.54

Search2Motion은 학습 없이도 신뢰할 수 있는 객체 재배치와 시간적으로 일관된 모션을 달성한다.
ACE-Seed는 초기 스텝 주의 합의가 강한 시드를 선택하여 모션 충실도를 지속적으로 향상시키고 초기화의 불리함에 대한 민감도를 줄인다.
FLF2V-obj 지표가 전통적인 전체 프레임 지표보다 객체 수준의 충실도를 더 정확하게 반영하여 평가에서 인간 선호도와 일치한다.
S2M-DAVIS와 S2M-OMB 벤치마크는 객체 모션을 카메라/배경 다이나믹스에서 분리하고 객체 중심 편집 파이프라인의 강점을 드러낸다.
트래젝토리 기반 베이스라인과 비교할 때, Search2Motion은 객체 수준 충실도가 더 높고 평가된 시나리오 전반에서 목표 배치가 더 안정적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.