Skip to main content
QUICK REVIEW

[논문 리뷰] Search2Motion: Training-Free Object-Level Motion Control via Attention-Consensus Search

Sainan Liu, Tz-Ying Wu|arXiv (Cornell University)|2026. 03. 17.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

Search2Motion은 타깃 프레임 제어, 의미-guided 객체 배치, 그리고 ACE-Seed 주의 기반 시드 선택을 활용하여 이미지-에서 비디오 생성에서 학습 없이 객체 수준의 모션 편집을 가능하게 하며, 새로운 객체 중심 벤치마크를 제공합니다.

ABSTRACT

We present Search2Motion, a training-free framework for object-level motion editing in image-to-video generation. Unlike prior methods requiring trajectories, bounding boxes, masks, or motion fields, Search2Motion adopts target-frame-based control, leveraging first-last-frame motion priors to realize object relocation while preserving scene stability without fine-tuning. Reliable target-frame construction is achieved through semantic-guided object insertion and robust background inpainting. We further show that early-step self-attention maps predict object and camera dynamics, offering interpretable user feedback and motivating ACE-Seed (Attention Consensus for Early-step Seed selection), a lightweight search strategy that improves motion fidelity without look-ahead sampling or external evaluators. Noting that existing benchmarks conflate object and camera motion, we introduce S2M-DAVIS and S2M-OMB for stable-camera, object-only evaluation, alongside FLF2V-obj metrics that isolate object artifacts without requiring ground-truth trajectories. Search2Motion consistently outperforms baselines on FLF2V-obj and VBench.

연구 동기 및 목표

  • 재학습이나 보조 제어 신호 없이도 객체 수준의 모션 편집에 접근 가능하게 만든다.
  • 첫 프레임-마지막 프레임 조건을 사용하여 카메라/배경 동작으로부터 객체 모션을 분리한다.
  • 조기 스텝 자기 주의 맵을 통해 해석 가능한 사용자 피드백을 제공한다.
  • 외부 평가자나 look-ahead 샘플링 없이 모션 충실도를 향상시키는 ACE-Seed를 도입한다.
  • 객체 수준 모션 충실도를 평가하기 위한 전용 벤치마크와 지표를 제안한다.

제안 방법

  • 객체 모션 편집을 FLF2V(첫 프레임에서 마지막 프레임) 비디오 생성 과제로 재정의한다.
  • 의미-가이드된 객체 배치와 배경 인페인팅을 통해 의미적으로 타당한 대상 마지막 프레임을 구성한다.
  • 마지막 프레임을 원하는 객체 변환을 인코딩하는 합성물로 합성한 뒤, 첫 프레임과 합성된 마지막 프레임에 조건화하여 비디오를 생성한다.
  • 초기 스텝 확산 자기 주의 맵을 사용하여 객체 및 카메라 다이나믹스를 미리 보이고 사용자 배치 선택을 안내한다.
  • ACE-Seed를 도입한다. 이는 주의 합의(attention-consensus) 기반의 잡음 시드 선택 전략으로, 초기 스텝 주의 유사도를 합의와 비교해 시드를 순위화하고 모션 아티팩트를 감소시킨다.
  • 객체 중심 FLF2V 벤치마크(S2M-DAVIS, S2M-OMB)와 FLF2V-obj 지표를 제안하여 배경/카메라 변화로부터 객체 모션 충실도를 분리 평가한다.

실험 결과

연구 질문

  • RQ1학습이나 모델 특화 제어 신호 없이도 객체 수준의 모션 편집이 가능할까?
  • RQ2타깃 프레임 가이던스를 정적 배경 내에서 설득력 있는 객체 재배치를 어떻게 안내할 수 있을까?
  • RQ3초기 스텝 주의 맵이 하류의 객체/카메라 다이나믹을 예측하여 해석 가능한 사용자 피드백을 가능하게 할까?
  • RQ4주의 합의 시드 선택(ACE-Seed)이 외부 평가자나 미리 보기 샘플링 없이 모션 충실도를 향상시킬까?
  • RQ5새로운 객체 중심 벤치마크와 지표가 기존의 전체 프레임 지표보다 객체 수준의 모션 충실도를 더 잘 진단할까?

주요 결과

데이터세트방법주제 일관성배경 일관성시간적 깜빡임모션 매끄러움심미적 품질이미징 품질
S2M-OMBDragAnything89.7392.1395.1597.6255.0657.94
TTM - Wan2.2-5BWan2.2-5B [ singer2025ttm ]93.9295.2998.0098.5959.4270.03
Search2Motion - VACE-1.3B94.7795.9897.9998.7561.9671.34
Search2Motion - Wan2.2-5B95.1996.0799.0099.4556.8671.54
  • Search2Motion은 학습 없이도 신뢰할 수 있는 객체 재배치와 시간적으로 일관된 모션을 달성한다.
  • ACE-Seed는 초기 스텝 주의 합의가 강한 시드를 선택하여 모션 충실도를 지속적으로 향상시키고 초기화의 불리함에 대한 민감도를 줄인다.
  • FLF2V-obj 지표가 전통적인 전체 프레임 지표보다 객체 수준의 충실도를 더 정확하게 반영하여 평가에서 인간 선호도와 일치한다.
  • S2M-DAVIS와 S2M-OMB 벤치마크는 객체 모션을 카메라/배경 다이나믹스에서 분리하고 객체 중심 편집 파이프라인의 강점을 드러낸다.
  • 트래젝토리 기반 베이스라인과 비교할 때, Search2Motion은 객체 수준 충실도가 더 높고 평가된 시나리오 전반에서 목표 배치가 더 안정적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.