[논문 리뷰] Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion
Tri-Prompting은 듀얼 컨디셔닝(3D XYZ 장면 큐 및 저해상도 RGB 피사체 큐)을 사용하여 장면, 다중 시점 피사체 정체성 및 모션을 공동 제어하는 단일 영상 확산 프레임워크를 제시하며, 두 단계의 학습 파이프라인을 갖춘다.
Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.
연구 동기 및 목표
- 장면, 피사체, 모션에 걸친 AI 비디오 생성에서 통합되고 세밀한 제어의 필요성을 제고한다.
- 단일 모델 내에 장면 구성, 다중 시점 피사체 일관성 및 모션 제어를 통합하기 위해 Tri-Prompting을 제안한다.
- 장면/피사체 제어와 이중 컨디셔닝 모션 신호를 융합하는 두 단계 학습 파이프라인을 개발한다.
- 모션 정확도 및 다중 시점 정체성 보존에서 전문 베이스라인보다 향상된 성능을 입증한다.
제안 방법
- 장면 이미지와 텍스트 프롬프트, 피사체의 최대 3장의 다중 시점 참조 이미지, XYZ 궤적과 다운샘플링된 RGB 격자를 포함하는 모션 구동 비디오를 입력으로 받는 통합 Tri-Prompting 프레임워크를 도입한다.
- 두 단계 학습 전략을 사용한다: 1단계에서 장면/피사체 제어를 위한 LoRA로 기본 비디오 확산 모델을 미세조정하고, 2단계에서 이중 컨디셔닝 모션 제어를 위한 ControlNet을 미세조정한다(장면/배경 XYZ + 피사체 RGB 프록시).
- 이중 컨디셔닝 모션을 사용한다: 배경 모션은 3D XYZ 트래킹 포인트를 통해, 전경 모션은 저해상도 RGB 격자를 통해 얻어지며, 이를 ControlNet 조건부를 위한 공간적으로 배타적 앵커 비디오로 융합한다.
- 추론 시, 제어 가능성과 현실감을 균형 있게 조절하고 3D-인식 피사체 삽입 및 이미지 내 조작과 같은 새로운 워크플로를 지원하기 위해 ControlNet 스케일 스케줄을 적용한다.
실험 결과
연구 질문
- RQ1한 영상 확산 모델이 극단적인 포즈 변화에서도 장면, 다중 뷰에서의 피사체 정체성 및 모션(카메라 및 객체)을 동시에 견고하게 제어할 수 있는가?
- RQ2XYZ 장면 큐 + 저해상도 RGB 피사체 큐의 이중 컨디셔닝이 단일 신호 기반 baselines와 비교하여 3D 일관성과 다중 시점 정체성을 향상시키는가?
- RQ3다중 시점 피사체 참조 및 두 단계 학습이 3D 일관성과 모션 정확도를 이전의 전문 방법들보다 개선하는가?
- RQ4통합 트라이-프롬프트 제어로 어떤 새로운 워크플로가 가능해지는가(예: 3D 인식 피사체 삽입, 이미지 내 조작 등)?
주요 결과
- Tri-Prompting은 모션 정확도 및 다중 시점 아이덴티티 보존 면에서 전문 baselines(DaS와 Phantom)보다 우수하다.
- ControlNet 이중 컨디셔닝을 사용하는 Stage 2가 Stage 1보다 3D 일관성 및 다중 시점 아이덱스가 더 높다.
- 3뷰 이상 피사체 참조를 사용하는 것이 단일 시점 입력보다 3D 정렬과 아이덴티티 유사성에 이점을 준다.
- 추론 중 컨트롤넷 스케일 스케줄을 적용하면 고정 스케일 유지보다 더 매끄럽고 현실적인 모션이 얻어진다.
- 본 방법은 3D 인식 피사체 삽입 및 장면–피사체 모션 제어를 피사체 정체성 유지와 함께 실행하는 새로운 워크플로를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.