QUICK REVIEW

[論文レビュー] DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning

Yujie Wei, Xinyu Liu|arXiv (Cornell University)|Mar 12, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

DreamVideo-Omniは、条件付き3D RoPE、グループ/役割の埋め込み、階層的モーション注入、潜在アイデンティティ報酬学習を用いて、複雑なモーション下でアイデンティティを維持しつつ、マルチ被写体の外観カスタマイズとオムニモーション制御を統合する二段階フレームワークを提示します。

ABSTRACT

While large-scale diffusion models have revolutionized video synthesis, achieving precise control over both multi-subject identity and multi-granularity motion remains a significant challenge. Recent attempts to bridge this gap often suffer from limited motion granularity, control ambiguity, and identity degradation, leading to suboptimal performance on identity preservation and motion control. In this work, we present DreamVideo-Omni, a unified framework enabling harmonious multi-subject customization with omni-motion control via a progressive two-stage training paradigm. In the first stage, we integrate comprehensive control signals for joint training, encompassing subject appearances, global motion, local dynamics, and camera movements. To ensure robust and precise controllability, we introduce a condition-aware 3D rotary positional embedding to coordinate heterogeneous inputs and a hierarchical motion injection strategy to enhance global motion guidance. Furthermore, to resolve multi-subject ambiguity, we introduce group and role embeddings to explicitly anchor motion signals to specific identities, effectively disentangling complex scenes into independent controllable instances. In the second stage, to mitigate identity degradation, we design a latent identity reward feedback learning paradigm by training a latent identity reward model upon a pretrained video diffusion backbone. This provides motion-aware identity rewards in the latent space, prioritizing identity preservation aligned with human preferences. Supported by our curated large-scale dataset and the comprehensive DreamOmni Bench for multi-subject and omni-motion control evaluation, DreamVideo-Omni demonstrates superior performance in generating high-quality videos with precise controllability.

研究の動機と目的

複数被写体のアイデンティティを同時に維持しつつ、動画生成におけるグローバル/グローバルおよびローカルのモーションとカメラ制御を細粒度で提供する。
サブジェクトの外観、グローバルモーション、ローカルダイナミクス、カメラ移動を明示的な結合機構とともに統合するDiTベースの統一アーキテクチャを開発する。
モーション中のアイデンティティ低下を緩和するため、ビデオ拡散潜在空間で学習された潜在アイデンティティ報酬モデルを導入し、生成を人間のアイデンティティ嗜好と整合させる。
DreamOmni Benchと大規模なマルチ被写体・オムニモーションデータセットを作成・提供し、アイデンティティ維持とモーション操作性の総合評価を可能にする。

提案手法

段階的な二段階トレーニングパラダイムを採用する：オムニモーションとアイデンティティ監視微調整（Stage 1）と潜在アイデンティティ報酬フィードバック学習（Stage 2）。
Stage 1は、被写体外観、グローバル境界ボックス、ローカル軌道、カメラ動作を条件として、条件対応3D RoPEと階層的モーション注入を介して全てを一体化した動画DiTを使用する。
学習可能なグループ埋め込みを導入し、モーション信号を特定の参照被写体に固定し、ロール埋め込みで入力信号モダリティ（オブジェクト vs. コントロール）を区別する。
コピー＆ペーストアーティファクトを減らすためにリファレンス画像に堅牢なデータ拡張パイプラインを適用し、境界ボックス内の領域を重視するリウェイト付き拡散損失（L_sft）を使用する。
Stage 2は、事前学習済みVideo Diffusion Modelの上にLatent Identity Reward Model（LIRM）を訓練し、潜在空間でのモーション認識型アイデンティティ報酬を提供し、二値の嗜好目的でLIReFLを可能にする。
LIRMは、参照画像のアイデンティティ特徴と潜在空間の時空動画特徴との間のクロスアテンションを介して報酬を計算し、ラベル付き嗜好データセット（LIRM data）で訓練する。
LIReFLは、潜在空間での単一ステップの勾配降下デノイジングステップを用いて報酬を動画生成器に伝搬させ、Stage 1の損失（L_sft）で正規化する。
データセット構築とDreamOmni Benchは、マルチ被写体カスタマイズとオムニモーション制御の評価を可能にする、マスク、ボックス、軌跡を含む密な時空注釈を提供する。

実験結果

リサーチクエスチョン

RQ1動画生成において、グローバル・ローカル・カメラ動作という複数粒度のモーション制御を実現しつつ、複数被写体のアイデンティティをどのように正確に維持できるか。
RQ2グループ埋め込みやロール埋め込みといった明示的な結合機構は、マルチ被写体シナリオでモーション制御の曖昧さを減らせるか。
RQ3拡散潜在空間での潜在アイデンティティ報酬学習は、大振幅のモーション下でのアイデンティティ維持を標準的な拡散損失より改善するか。
RQ4オムニモーション条件付けを用いた統一DiTフレームワークで、ゼロショットのマルチ被写体カスタマイズは実現可能か。
RQ5提案データセットとDreamOmni Benchは、アイデンティティ維持とモーション制御性の包括的評価をいかに可能にするか。

主な発見

DreamVideo-Omniは、ベースラインよりもアイデンティティ維持とモーション制御性を改善することを示し、高品質なビデオ生成と正確な制御性の優れた性能を実証する。
条件対応3D RoPEと階層的モーション注入は、異種入力を効果的に協調させ、安定した訓練と精密なグローバルモーション制御を実現する。
グループ埋め込みと役割埋め込みは、モーション信号を対応するアイデンティティに明示的に結びつけ、多被写体シーンの曖昧さを減らす。
LIReFLは潜在空間でモーション認識型アイデンティティ報酬を提供し、大振幅モーション時のアイデンティティ低下を緩和する。
DreamOmni Benchは1,027件の実世界ビデオと密な注釈を提供し、ゼロショット設定でのアイデンティティ維持と複雑なモーションの統合評価を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。