[論文レビュー] Identity as Presence: Towards Appearance and Voice Personalized Joint Audio-Video Generation
要約: 自動データキュレーション、統一的アイデンティティ注入、マルチステージ学習を用いた外観と声のパーソナライズを統合したエンドツーエンドの共同オーディオ-ビデオ生成フレームワーク。
Recent advances have demonstrated compelling capabilities in synthesizing real individuals into generated videos, reflecting the growing demand for identity-aware content creation. Nevertheless, an openly accessible framework enabling fine-grained control over facial appearance and voice timbre across multiple identities remains unavailable. In this work, we present a unified and scalable framework for identity-aware joint audio-video generation, enabling high-fidelity and consistent personalization. Specifically, we introduce a data curation pipeline that automatically extracts identity-bearing information with paired annotations across audio and visual modalities, covering diverse scenarios from single-subject to multi-subject interactions. We further propose a flexible and scalable identity injection mechanism for single- and multi-subject scenarios, in which both facial appearance and vocal timbre act as identity-bearing control signals. Moreover, in light of modality disparity, we design a multi-stage training strategy to accelerate convergence and enforce cross-modal coherence. Experiments demonstrate the superiority of the proposed framework. For more details and qualitative results, please refer to our webpage: \href{https://chen-yingjie.github.io/projects/Identity-as-Presence}{Identity-as-Presence}.
研究の動機と目的
- 顔の外観と声の音色をきっちり結びつけるエンドツーエンドでアイデンティティ認識を持つ共同オーディオ-ビデオ生成の必要性を動機づけ、課題に対処する。
- マニュアル注釈なしでアイデンティティラベル付きのオーディオビジュアル対を作成する自動データキュレーションパイプラインを開発する。
- 複数主体にわたる視覚的および聴覚的アイデンティティ信号を結びつける統一的アイデンティティ注入メカニズムを提案する。
- 異種データを活用してクロスモーダル学習を安定化させ、マルチビューアイデンティティの忠実度を向上させるマルチステージ学習戦略を提案する。
- オーディオ品質、映像忠実度、クロスモーダル整合性において最先端の性能を実証する。
提案手法
- ビデオからアイデンティティを含む情報を抽出し、マルチモーダルLLMでキャプションを生成し、音声-映像アイデンティティを一致させる完全自動データキュレーションパイプライン。
- 視覚的および聴覚的アイデンティティ信号を共通アイデンティティ埋め込みとしてエンコードし、デュアルタワー拡散トランスフォーマーの参照トークンに適用する統一的アイデンティティ注入。
- 非対称自己注意とパラメータ化のデカップリングを備えたデュアルタワー DiT アーキテクチャで、視覚的と音声的アイデンティティ経路を別々に最適化。
- モードをまたぐ参照トークンに共有アイデンティティ埋め込みを追加することで、マルチモーダルトークンベースのアイデンティティ条件付けを実現。
- 視覚的および聴覚的ストリームを横断してアイデンティティトークンを整列させる構造化時空間位置埋め込み(アイデンティティアンカーの仮想的時間拡張を含む)。
- 異種データを活用して収束を加速させるためのマルチステージ学習(単一モードのアイデンティティ事前学習、共同モ multimodalアイデンティティ学習、マルチビュー微調整)を提案する。
実験結果
リサーチクエスチョン
- RQ1単一および複数主体の相互作用を網羅する高品質なアイデンティティラベル付きオーディオビジュアルデータを自動キュレーションするにはどうすればよいか。
- RQ2統一的アイデンティティ注入機構は複数主体シナリオで顔の外観と声の音色を堅牢に結びつけられるか。
- RQ3マルチステージ学習戦略は共同オーディオ-ビデオ生成における収束とクロスモーダル整合性を改善するか。
- RQ4外観と声のパーソナライズ生成を適用した場合、最先端ベースラインと比較して音声品質、映像忠実度、およびクロスモーダル同期の利得はどの程度か。
主な発見
| Models | PQ | CLAP | FD | WER | AID-SIM | AES | DD | OC | VID-SIM | Sync-C | Sync-D | ImageBind |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Phantom | - | - | - | - | - | 0.532 | 0.844 | 0.124 | 0.631 / 0.569 | - | - | - |
| HunyuanCustom | - | - | - | - | - | 0.553 | 0.711 | 0.125 | 0.563/- | - | - | - |
| Stand-In | - | - | - | - | - | 0.576 | 0.159 | 0.120 | 0.561/- | - | - | - |
| R2I+Ovi I2AV | 5.495 | 0.304 | 0.893 | 0.203 | - | 0.554 | 0.667 | 0.111 | 0.383/- | 6.844 | 8.555 | 0.229 |
| R2I+LTX-2 I2AV | 5.302 | 0.268 | 1.131 | 0.205 | - | 0.538 | 0.733 | 0.112 | 0.373/- | 5.777 | 8.908 | 0.238 |
| R2I+UniAVGen I2AV | 6.091 | 0.315 | 0.888 | 0.327 | 0.321 /- | 0.598 | 0.622 | 0.107 | 0.403/- | 4.630 | 10.368 | 0.230 |
| Ours | 6.944 | 0.330 | 0.729 | 0.188 | 0.597 / 0.572 | 0.606 | 0.867 | 0.132 | 0.667 / 0.623 | 7.063 | 8.149 | 0.335 |
- 提案手法は包括的なベンチマークで音声品質、映像忠実度、クロスモーダル整合性の最先端性能を達成。
- 完全自動のデータキュレーションパイプラインにより、マニュアル注釈なしでアイデンティティラベル付きオーディオビジュアルデータを効果的に構築でき、スケーラブルな学習を実現。
- 統一的アイデンティティ注入と共有アイデンティティ埋め込みにより視覚的・聴覚的アイデンティティが結ばれ、複数主体の一貫性が向上しアイデンティティの絡みつきが低減。
- マルチステージ学習は単一モードデータを活用して収束を加速し、共同のモ multimodal最適化とマルチビュー微調整を実施。
- アブレーション研究は主体アンカーとアイデンティティ埋め込みが安定した複数主体のパーソナライゼーションと正しい顔-声音の結合に重要であることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。