[論文レビュー] InterDyad: Interactive Dyadic Speech-to-Video Generation by Querying Intermediate Visual Guidance
InterDyadは、Interactivity InjectorとMetaQueryベースのモダリティ整合、極端な姿勢下での頑健なリップシンクを実現するRoDGを用いて、二者間の対話的な発話駆動 dyadic 動画を明示的な相互作用パターンとともに生成する2段階フレームワークを導入する。
Despite progress in speech-to-video synthesis, existing methods often struggle to capture cross-individual dependencies and provide fine-grained control over reactive behaviors in dyadic settings. To address these challenges, we propose InterDyad, a framework that enables naturalistic interactive dynamics synthesis via querying structural motion guidance. Specifically, we first design an Interactivity Injector that achieves video reenactment based on identity-agnostic motion priors extracted from reference videos. Building upon this, we introduce a MetaQuery-based modality alignment mechanism to bridge the gap between conversational audio and these motion priors. By leveraging a Multimodal Large Language Model (MLLM), our framework is able to distill linguistic intent from audio to dictate the precise timing and appropriateness of reactions. To further improve lip-sync quality under extreme head poses, we propose Role-aware Dyadic Gaussian Guidance (RoDG) for enhanced lip-synchronization and spatial consistency. Finally, we introduce a dedicated evaluation suite with novelly designed metrics to quantify dyadic interaction. Comprehensive experiments demonstrate that InterDyad significantly outperforms state-of-the-art methods in producing natural and contextually grounded two-person interactions. Please refer to our project page for demo videos: https://interdyad.github.io/.
研究の動機と目的
- 二人の対話的なビデオ合成を、明示的な相互作用ダイナミクスを条件にして促進・実現する。
- オーディオと dyadic モーションの間のモーダル間ギャップを、中間的な視覚ガイダンスと音声駆動モダリティ整合によって排除する。
- モーション priors と役割認識ガイダンスを通じて、反応的挙動(うなずき、視線など)を細粒度に制御する。
- 極端な頭部ポーズ下での頑健なリップシンクとアイデンティティ保持を実現する。
- 時間・空間的相互作用を評価する専用の評価スイートを、 dyadic シーンでの評価指標とともに確立する。
提案手法
- InterDyadを導入し、対話的な二者生成フレームワークとして、Interactivity InjectorとMetaQueryベースのモダリティ整合を用いて二人の相互作用を誘導する。
- Interactivity Injectorを用いて参照動画からアイデンティティ非依存の相互作用 priors を抽出し、Spatial-Masking Cross-Attention機構を介して事前学習済みの音声条件付き動画生成 backbone に注入する。
- Modality Alignmentを用いて音声をモーション priors に橋渡しする。凍結されたマルチモーダルLLM(Qwen3-Omni)と時間的に整列した Meta-Query シーケンスを用いて dyadic 相互作用パターンを予測する。
- RoDG(Role-aware Dyadic Gaussian Guidance)を適用し、活発な話者のリップ領域に音声条件を集中させ、極端なポーズ下でのリップシンクを改善する。
- 学習は2段階で行う:第1段階はモダリティ整合を通じて音声を相互作用 priors にマッピング、第2段階は Interactivity Injector と Audio Cross-Attention のEnd-to-End微調整。
実験結果
リサーチクエスチョン
- RQ1明示的な相互作用 priors と跨モーダル整合は、既存手法と比較して音声駆動の現実的な dyadic 相互作用を改善するか。
- RQ2参照動画からのモーション priors を、音声駆動の合成と効果的に統合して、同期的で文脈に根ざした dyadic 行動を生み出せるか。
- RQ3役割認識ガウスガイダンスは、難しいポーズや相互視線下でのリップシンクと相互作用の忠実度を高めるか。
- RQ4二人対話動画における時間的同期と相互関与を測る最適な指標は何か。
- RQ5専用の評価スイートが dyadic インタラクティビティの品質評価に与える影響は何か。
主な発見
| 方法 | FID ↓ | FVD ↓ | ID-Cons ↑ | Sync-C ↑ | Sync-D ↓ | DI-Sync ↑ | DI-Sali ↑ |
|---|---|---|---|---|---|---|---|
| MultiTalk | 49.6047 | 477.6189 | 0.5275 | 3.2253 | 5.8941 | 0.2333 | 0.8889 |
| InfiniteTalk | 46.3762 | 440.6732 | 0.6418 | 3.0446 | 5.5412 | 0.2371 | 0.8560 |
| LongCat-VA | 45.4698 | 548.8332 | 0.6059 | 3.1985 | 5.7200 | 0.2417 | 1.1145 |
| InterDyad (Ours) | 38.3260 | 415.5064 | 0.6310 | 3.3067 | 4.1786 | 0.2747 | 1.2349 |
- InterDyad はベースラインに比べて視覚的忠実度が高く、アイデンティティ保持も競合的である。FID 38.3260、FVD 415.5064、ID-Cons 0.6310。
- 音声と映像の同期が強化され、Sync-C 3.3067、Sync-D 4.1786を記録し、DI-Sync 0.2747、DI-Sali 1.2349 で対話ダイナミクスが改善。
- DI-Sync と DI-Sali の指標は、MultiTalk、InfiniteTalk、LongCat-VA などのベースラインより時間的調整と共同運動ダイナミクスが優れていることを示す。
- RoDG は活発な話者のリップ領域に音声ガイダンスを集中させることで、極端な横顔ビューでのリップ再構成を改善。
- 2段階の学習戦略(モダリティ整合 → End-to-End 微調整)は、学習を安定させ、モーダル間結合を強化する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。