QUICK REVIEW

[논문 리뷰] Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

Zhenghong Zhou, Xiaohang Zhan|arXiv (Cornell University)|2026. 03. 16.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

Tri-Prompting은 듀얼 컨디셔닝(3D XYZ 장면 큐 및 저해상도 RGB 피사체 큐)을 사용하여 장면, 다중 시점 피사체 정체성 및 모션을 공동 제어하는 단일 영상 확산 프레임워크를 제시하며, 두 단계의 학습 파이프라인을 갖춘다.

ABSTRACT

Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.

연구 동기 및 목표

장면, 피사체, 모션에 걸친 AI 비디오 생성에서 통합되고 세밀한 제어의 필요성을 제고한다.
단일 모델 내에 장면 구성, 다중 시점 피사체 일관성 및 모션 제어를 통합하기 위해 Tri-Prompting을 제안한다.
장면/피사체 제어와 이중 컨디셔닝 모션 신호를 융합하는 두 단계 학습 파이프라인을 개발한다.
모션 정확도 및 다중 시점 정체성 보존에서 전문 베이스라인보다 향상된 성능을 입증한다.

제안 방법

장면 이미지와 텍스트 프롬프트, 피사체의 최대 3장의 다중 시점 참조 이미지, XYZ 궤적과 다운샘플링된 RGB 격자를 포함하는 모션 구동 비디오를 입력으로 받는 통합 Tri-Prompting 프레임워크를 도입한다.
두 단계 학습 전략을 사용한다: 1단계에서 장면/피사체 제어를 위한 LoRA로 기본 비디오 확산 모델을 미세조정하고, 2단계에서 이중 컨디셔닝 모션 제어를 위한 ControlNet을 미세조정한다(장면/배경 XYZ + 피사체 RGB 프록시).
이중 컨디셔닝 모션을 사용한다: 배경 모션은 3D XYZ 트래킹 포인트를 통해, 전경 모션은 저해상도 RGB 격자를 통해 얻어지며, 이를 ControlNet 조건부를 위한 공간적으로 배타적 앵커 비디오로 융합한다.
추론 시, 제어 가능성과 현실감을 균형 있게 조절하고 3D-인식 피사체 삽입 및 이미지 내 조작과 같은 새로운 워크플로를 지원하기 위해 ControlNet 스케일 스케줄을 적용한다.

실험 결과

연구 질문

RQ1한 영상 확산 모델이 극단적인 포즈 변화에서도 장면, 다중 뷰에서의 피사체 정체성 및 모션(카메라 및 객체)을 동시에 견고하게 제어할 수 있는가?
RQ2XYZ 장면 큐 + 저해상도 RGB 피사체 큐의 이중 컨디셔닝이 단일 신호 기반 baselines와 비교하여 3D 일관성과 다중 시점 정체성을 향상시키는가?
RQ3다중 시점 피사체 참조 및 두 단계 학습이 3D 일관성과 모션 정확도를 이전의 전문 방법들보다 개선하는가?
RQ4통합 트라이-프롬프트 제어로 어떤 새로운 워크플로가 가능해지는가(예: 3D 인식 피사체 삽입, 이미지 내 조작 등)?

주요 결과

Tri-Prompting은 모션 정확도 및 다중 시점 아이덴티티 보존 면에서 전문 baselines(DaS와 Phantom)보다 우수하다.
ControlNet 이중 컨디셔닝을 사용하는 Stage 2가 Stage 1보다 3D 일관성 및 다중 시점 아이덱스가 더 높다.
3뷰 이상 피사체 참조를 사용하는 것이 단일 시점 입력보다 3D 정렬과 아이덴티티 유사성에 이점을 준다.
추론 중 컨트롤넷 스케일 스케줄을 적용하면 고정 스케일 유지보다 더 매끄럽고 현실적인 모션이 얻어진다.
본 방법은 3D 인식 피사체 삽입 및 장면–피사체 모션 제어를 피사체 정체성 유지와 함께 실행하는 새로운 워크플로를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.