[論文レビュー] MIRRORTALK: Forging Personalized Avatars Via Disentangled Style and Hierarchical Motion Control
MirrorTalk はセマンティックに分離されたスタイルエンコーダと時空間階層拡散モジュレーションを用いて、リップシンクと話者スタイルを保った個別化の talking faces を合成します。
Synthesizing personalized talking faces that uphold and highlight a speaker's unique style while maintaining lip-sync accuracy remains a significant challenge. A primary limitation of existing approaches is the intrinsic confounding of speaker-specific talking style and semantic content within facial motions, which prevents the faithful transfer of a speaker's unique persona to arbitrary speech. In this paper, we propose MirrorTalk, a generative framework based on a conditional diffusion model, combined with a Semantically-Disentangled Style Encoder (SDSE) that can distill pure style representations from a brief reference video. To effectively utilize this representation, we further introduce a hierarchical modulation strategy within the diffusion process. This mechanism guides the synthesis by dynamically balancing the contributions of audio and style features across distinct facial regions, ensuring both precise lip-sync accuracy and expressive full-face dynamics. Extensive experiments demonstrate that MirrorTalk achieves significant improvements over state-of-the-art methods in terms of lip-sync accuracy and personalization preservation.
研究の動機と目的
- 話者固有のスタイルを維持しつつリップシンク精度を保つパーソナライズされた talking-face 世代の必要性を動機付ける。
- Briefな参照動画から純粋なスタイルを抽出する Semantically-Disentangled Style Encoder (SDSE) を提案する。
- diffusion における時空間階層モジュレーションを導入し、音声とスタイルを顔の領域ごとに条件付きで統合する。
- スタイルと内容を分離することがリップシンクの忠実度とペルソナ保持の改善につながることを示す。
- 最新手法との広範な定量・定性比較を提供する。
提案手法
- Briefな参照動画から Semantically-Disentangled Style Encoder (SDSE) を学習する2段階トレーニングフレームワークを導入する。
- Motion Expert を用いた跨モーダル監督によって音声意味論と視覚的手掛かりを整合させる。
- SDSE をデカップリング損失と HSIC ベースの独立正則化項+トリプレット損失で学習し、意味内容と分離された話者識別可能なスタイル表現を取得する。
- 各 timestep ごとに上位領域(スタイル優位)と下位領域(音声優位)で、音声とスタイル特徴を動的にバランスさせる空間-時間的階層モジュレーションを備えた拡散トランスフォーマー(DiT)を適用する。
- 幾何のための 3D FLAME パラメータを推定するエンコーダと、生成モーションと肖像画像から最終動画フレームを合成するニューラルレンダラーを用意する。
- CREMA-D、HDTF、VoxCeleb2由来のコンポジットで SSIM, FID, M-LMD, F-LMD, Sync_conf, StyleSim を評価する。
実験結果
リサーチクエスチョン
- RQ1短い参照動画から意味的に分離されたスタイル表現を抽出し、内容とは独立した話者固有の talking style を捉えられるか。
- RQ2領域認識的な階層拡散条件付け戦略は、リップシンクの精度を改善しつつパーソナライズされた表情ダイナミクスを維持できるか。
- RQ3MirrorTalk は lip-sync Fidelity と persona preservation の両面で、 diverse なデータセットにおいて最新手法と比較して優れているか。
- RQ4メモリーバンク、分離モジュール、トリプレット損失、階層スケールの各成分が全体性能に与える影響はどれほどか。
主な発見
| Method | SSIM (CREMA-D) | FID (CREMA-D) | M-LMD (CREMA-D) | F-LMD (CREMA-D) | Sync_conf (CREMA-D) | StyleSim (CREMA-D) | SSIM (HDTF) | FID (HDTF) | M-LMD (HDTF) | F-LMD (HDTF) | Sync_conf (HDTF) | StyleSim (HDTF) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Wav2Lip | 0.725 | 32.461 | 3.025 | 3.476 | 4.384 | 0.826 | 0.618 | 38.744 | 4.121 | 4.040 | 3.762 | 0.841 |
| EAMM | 0.414 | 37.296 | 6.630 | 6.819 | 1.545 | 0.788 | 0.396 | 42.158 | 6.019 | 7.135 | 1.204 | 0.805 |
| SadTalker | 0.762 | 15.135 | 4.143 | 2.804 | 2.676 | 0.851 | 0.664 | 20.514 | 3.559 | 2.926 | 2.232 | 0.862 |
| AniTalker | 0.726 | 16.141 | 5.742 | 4.052 | 1.926 | 0.730 | 0.593 | 25.259 | 6.413 | 4.547 | 2.763 | 0.724 |
| Echomimic | 0.912 | 28.506 | 4.006 | 2.612 | 3.461 | 0.852 | 0.879 | 31.243 | 3.681 | 2.851 | 2.689 | 0.866 |
| V-Express | 0.708 | 18.074 | 4.906 | 4.868 | 2.130 | 0.834 | 0.651 | 24.061 | 5.706 | 5.001 | 1.593 | 0.845 |
| Ours | 0.917 | 16.293 | 2.771 | 1.824 | 4.106 | 0.937 | 0.890 | 21.682 | 2.481 | 2.122 | 3.811 | 0.958 |
| Ground Truth | 1.000 | 0.000 | 0.000 | 0.000 | 4.531 | 0.942 | 1.000 | 0.000 | 0.000 | 0.000 | 3.962 | 0.969 |
- CREMA-D および HDTF において lip-sync 精度および persona preservation で最新手法のベースラインを上回る。
- SDSE は semantic content から分離された純粋なスタイル表現を生み出し、StyleSim と lip-sync 指標を改善する。
- 階層モジュレーションは下半分の(lip)精度と上半分のダイナミクスを改善し、Sync_conf と StyleSim を向上させる。
- メモリーバンク、分離モジュール、トリプレット損失、階層スケールの組み合わせが最良の結果に不可欠であることをアブレーション研究が示す。
- 定性的な結果は、ベースラインと比較して、より自然で話者固有の表情や唇の動きが見られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。