QUICK REVIEW

[論文レビュー] Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

Zhenghong Zhou, Xiaohang Zhan|arXiv (Cornell University)|Mar 16, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

Tri-Promptingは、3D XYZシーン手掛かりと低解像度RGBの被写体手掛かりを用いたデュアル条件付けと2段階の学習パイプラインにより、シーン、マルチビュー被写体アイデンティティ、モーションを共同制御する統一ビデオ拡散フレームワークを提示します。

ABSTRACT

Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.

研究の動機と目的

AIビデオ生成におけるシーン・被写体・モーションの統一かつ細粒度の制御の必要性を動機付ける。
単一モデル内でシーン構成、マルチビュー被写体の一貫性、モーション制御を統合するTri-Promptingを提案する。
シーン/被写体制御とデュアル条件付けモーション信号を融合する2段階の学習パイプラインを開発する。
モーション精度とマルチビューアイデンティティ保持において、専門的ベースラインより性能が向上することを実証する。

提案手法

(i) テキストプロンプト付きのシーン画像、(ii) 被写体の最大3点のマルチビュー参照画像、(iii) XYZ軌道とダウンサンプリングされたRGBグリッドを用いたモーション駆動ビデオを入力として、統一されたTri-Promptingフレームワークを導入する。
ステージ1は、LoRAを用いてシーン/被写体制御を伴う基盤のビデオ拡散モデルをファインチューニング。ステージ2はデュアル条件付けモーション制御（シーン/背景XYZ＋被写体RGB代理）を行うControlNetをファインチューニングする。
デュアル条件付けモーションを採用：背景モーションは3D XYZトラッキングポイント、前景モーションは低解像度RGBグリッドを用い、ControlNetの条件付けのために空間的に排他的なアンカービデオへ統合する。
推論時にはControlNetのスケールスケジュールを適用し、制御性と現実味のバランスを取り、3D認識された被写体挿入や画像内操作といった新規のワークフローをサポートする。

実験結果

リサーチクエスチョン

RQ1単一のビデオ拡散モデルは、極端なポーズ変化の下で、シーン、複数視点での被写体アイデンティティ、およびモーション（カメラと物体）を同時かつ頑健に制御できるか。
RQ2デュアル条件付け（XYZシーン手掛かり＋低解像度RGB被写体手掛かり）は、単一信号のベースラインと比べて3Dの一貫性とマルチビューアイデンティティを改善するか。
RQ33D一貫性とモーション精度が、マルチビュー被写体参照と二段階学習により、従来の専門手法より改善されるか。
RQ4統一されたTri-Prompt制御で実現可能になる新たなワークフロー（例：3D認識された挿入、画像内操作）は何か。

主な発見

Tri-Promptingは、モーション精度とマルチビューアイデンティティ保持において、専門ベースライン（DaSおよびPhantom）を上回る。
デュアル条件付けを取り入れたStage 2は、Stage 1より高い3D一貫性とマルチビューアイデンティティを示す。
3ビュー以上の被写体参照を用いると、単一ビュー入力より3D整列とアイデンティティ類似度が向上する。
推論時のControlNetスケールスケジュールは、固定スケールを維持するより滑らかで現実味のあるモーションをもたらす。
本手法は、3D認識された被写体挿入やシーン–被写体モーションの同時制御とアイデンティティ維持といった新規ワークフローを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。