[논문 리뷰] Search2Motion: Training-Free Object-Level Motion Control via Attention-Consensus Search
Search2Motion은 타깃 프레임 제어, 의미-guided 객체 배치, 그리고 ACE-Seed 주의 기반 시드 선택을 활용하여 이미지-에서 비디오 생성에서 학습 없이 객체 수준의 모션 편집을 가능하게 하며, 새로운 객체 중심 벤치마크를 제공합니다.
We present Search2Motion, a training-free framework for object-level motion editing in image-to-video generation. Unlike prior methods requiring trajectories, bounding boxes, masks, or motion fields, Search2Motion adopts target-frame-based control, leveraging first-last-frame motion priors to realize object relocation while preserving scene stability without fine-tuning. Reliable target-frame construction is achieved through semantic-guided object insertion and robust background inpainting. We further show that early-step self-attention maps predict object and camera dynamics, offering interpretable user feedback and motivating ACE-Seed (Attention Consensus for Early-step Seed selection), a lightweight search strategy that improves motion fidelity without look-ahead sampling or external evaluators. Noting that existing benchmarks conflate object and camera motion, we introduce S2M-DAVIS and S2M-OMB for stable-camera, object-only evaluation, alongside FLF2V-obj metrics that isolate object artifacts without requiring ground-truth trajectories. Search2Motion consistently outperforms baselines on FLF2V-obj and VBench.
연구 동기 및 목표
- 재학습이나 보조 제어 신호 없이도 객체 수준의 모션 편집에 접근 가능하게 만든다.
- 첫 프레임-마지막 프레임 조건을 사용하여 카메라/배경 동작으로부터 객체 모션을 분리한다.
- 조기 스텝 자기 주의 맵을 통해 해석 가능한 사용자 피드백을 제공한다.
- 외부 평가자나 look-ahead 샘플링 없이 모션 충실도를 향상시키는 ACE-Seed를 도입한다.
- 객체 수준 모션 충실도를 평가하기 위한 전용 벤치마크와 지표를 제안한다.
제안 방법
- 객체 모션 편집을 FLF2V(첫 프레임에서 마지막 프레임) 비디오 생성 과제로 재정의한다.
- 의미-가이드된 객체 배치와 배경 인페인팅을 통해 의미적으로 타당한 대상 마지막 프레임을 구성한다.
- 마지막 프레임을 원하는 객체 변환을 인코딩하는 합성물로 합성한 뒤, 첫 프레임과 합성된 마지막 프레임에 조건화하여 비디오를 생성한다.
- 초기 스텝 확산 자기 주의 맵을 사용하여 객체 및 카메라 다이나믹스를 미리 보이고 사용자 배치 선택을 안내한다.
- ACE-Seed를 도입한다. 이는 주의 합의(attention-consensus) 기반의 잡음 시드 선택 전략으로, 초기 스텝 주의 유사도를 합의와 비교해 시드를 순위화하고 모션 아티팩트를 감소시킨다.
- 객체 중심 FLF2V 벤치마크(S2M-DAVIS, S2M-OMB)와 FLF2V-obj 지표를 제안하여 배경/카메라 변화로부터 객체 모션 충실도를 분리 평가한다.
실험 결과
연구 질문
- RQ1학습이나 모델 특화 제어 신호 없이도 객체 수준의 모션 편집이 가능할까?
- RQ2타깃 프레임 가이던스를 정적 배경 내에서 설득력 있는 객체 재배치를 어떻게 안내할 수 있을까?
- RQ3초기 스텝 주의 맵이 하류의 객체/카메라 다이나믹을 예측하여 해석 가능한 사용자 피드백을 가능하게 할까?
- RQ4주의 합의 시드 선택(ACE-Seed)이 외부 평가자나 미리 보기 샘플링 없이 모션 충실도를 향상시킬까?
- RQ5새로운 객체 중심 벤치마크와 지표가 기존의 전체 프레임 지표보다 객체 수준의 모션 충실도를 더 잘 진단할까?
주요 결과
| 데이터세트 | 방법 | 주제 일관성 | 배경 일관성 | 시간적 깜빡임 | 모션 매끄러움 | 심미적 품질 | 이미징 품질 |
|---|---|---|---|---|---|---|---|
| S2M-OMB | DragAnything | 89.73 | 92.13 | 95.15 | 97.62 | 55.06 | 57.94 |
| TTM - Wan2.2-5B | Wan2.2-5B [ singer2025ttm ] | 93.92 | 95.29 | 98.00 | 98.59 | 59.42 | 70.03 |
| Search2Motion - VACE-1.3B | 94.77 | 95.98 | 97.99 | 98.75 | 61.96 | 71.34 | |
| Search2Motion - Wan2.2-5B | 95.19 | 96.07 | 99.00 | 99.45 | 56.86 | 71.54 |
- Search2Motion은 학습 없이도 신뢰할 수 있는 객체 재배치와 시간적으로 일관된 모션을 달성한다.
- ACE-Seed는 초기 스텝 주의 합의가 강한 시드를 선택하여 모션 충실도를 지속적으로 향상시키고 초기화의 불리함에 대한 민감도를 줄인다.
- FLF2V-obj 지표가 전통적인 전체 프레임 지표보다 객체 수준의 충실도를 더 정확하게 반영하여 평가에서 인간 선호도와 일치한다.
- S2M-DAVIS와 S2M-OMB 벤치마크는 객체 모션을 카메라/배경 다이나믹스에서 분리하고 객체 중심 편집 파이프라인의 강점을 드러낸다.
- 트래젝토리 기반 베이스라인과 비교할 때, Search2Motion은 객체 수준 충실도가 더 높고 평가된 시나리오 전반에서 목표 배치가 더 안정적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.