[論文レビュー] Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation
本論文はPC-AVSを提案する。姿勢を制御可能とし、音声駆動の話す顔生成フレームワークで、暗黙的な低次元姿勢コードとモジュール化された音声-視覚表現を用いて、構造的中間表現に依存せず、別の姿勢ソース動画から姿勢制御を可能にする。
While accurate lip synchronization has been achieved for arbitrary-subject audio-driven talking face generation, the problem of how to efficiently drive the head pose remains. Previous methods rely on pre-estimated structural information such as landmarks and 3D parameters, aiming to generate personalized rhythmic movements. However, the inaccuracy of such estimated information under extreme conditions would lead to degradation problems. In this paper, we propose a clean yet effective framework to generate pose-controllable talking faces. We operate on raw face images, using only a single photo as an identity reference. The key is to modularize audio-visual representations by devising an implicit low-dimension pose code. Substantially, both speech content and head pose information lie in a joint non-identity embedding space. While speech content information can be defined by learning the intrinsic synchronization between audio-visual modalities, we identify that a pose code will be complementarily learned in a modulated convolution-based reconstruction framework. Extensive experiments show that our method generates accurately lip-synced talking faces whose poses are controllable by other videos. Moreover, our model has multiple advanced capabilities including extreme view robustness and talking face frontalization. Code, models, and demo videos are available at https://hangz-nju-cuhk.github.io/projects/PC-AVS.
研究の動機と目的
- 音声駆動の talking-face 生成における自由な頭部姿勢制御を動機づける。
- 低次元の姿勢コードを学習することにより、明示的な2D/3D構造中間表現への依存を排除する。
- 暗黙的でデータ駆動の枠組みで、アイデンティティ、話者内容、姿勢を分離する。
- 別の動画ソースからの姿勢転送を許容しつつ、頬唇の同期を堅牢に達成する。
提案手法
- ターゲットフレーム上の姿勢関連変動を捉えるために、ターゲットフレームに対するデータ拡張を通じて非アイデンティティ特徴空間を同定する。
- 音声-視覚情報を三つの空間(話者内容、頭部姿勢、アイデンティティ)にモジュール化する。
- 視覚特徴と音声特徴の対照学習(InfoNCE)を用いて、音声-視覚同期を学習する。
- 最小限の3D姿勢事前知識から導出した暗黙の12D姿勢コードを定義し、非アイデンティティ特徴をこの姿勢空間へ写像する。
- アイデンティティ、話者内容、姿勢特徴から得られる連結潜在コードで畳み込み重みを動的にスケールさせるモジュレート畳み込み生成器を用いる。
- 敵対的損失、再構成損失(L1)、知覚損失(VGG)、およびクロスモーダル対照学習損失を組み合わせて、モジュール化と姿勢整合性を強制する。
- 生成時には、アイデンティティ空間と話者内容空間で口形状を動かしつつ、姿勢ソース動画で頭部姿勢を制御して姿勢を推定する。
実験結果
リサーチクエスチョン
- RQ1姿勢推定やランドマークを明示的に用いずに、話す顔生成で姿勢を制御できるか?
- RQ2低次元の暗黙姿勢コードは、リップシンクを保ちつつ頭部運動をモジュレーションするのに十分か?
- RQ31つのビデオソースからの姿勢を転送して、別のアイデンティティの話す顔を音声駆動で動かすことができるか?
- RQ4アイデンティティ、話者内容、姿勢のモジュール化は、極端な視点下でのリップシンクと頑健性を改善するか?
主な発見
| 手法 | SSIM LRW↑ | CPBD LRW↑ | LMD LRW↓ | Sync_conf LRW↑ | SSIM VoxCeleb2↑ | CPBD VoxCeleb2↑ | LMD VoxCeleb2↓ | Sync_conf VoxCeleb2↑ |
|---|---|---|---|---|---|---|---|---|
| ATVG | 0.810 | 0.102 | 5.25 | 4.1 | 0.826 | 0.061 | 6.49 | 4.3 |
| Wav2Lip | 0.862 | 0.152 | 5.73 | 6.9 | 0.846 | 0.078 | 12.26 | 4.5 |
| MakeitTalk | 0.796 | 0.161 | 7.13 | 3.1 | 0.817 | 0.068 | 31.44 | 2.8 |
| Rhythmic Head | - | - | - | - | 0.779 | 0.802 | 14.76 | 3.8 |
| Ground Truth | 1.000 | 0.173 | 0.00 | 5.9 | 1.000 | 0.090 | 0.00 | 5.9 |
| Ours-Fix Pose | 0.815 | 0.180 | 6.14 | 6.3 | 0.820 | 0.084 | 7.68 | 5.8 |
| PC-AVS (Ours) | 0.861 | 0.185 | 3.93 | 6.4 | 0.886 | 0.083 | 6.88 | 5.9 |
- 本手法は、姿勢ソース動画からの姿勢制御を可能にしつつ、リップ同期を正確に達成する。
- LRWで、PC-AVSはリップ同期と画像品質のベースラインと同等または上回り、VoxCeleb2では強力なリップシンクと姿勢制御性能を示す。
- 極端な視点にも頑健で、姿勢コードをゼロに設定することで顔を正面化できる。
- アブレーション研究は、対照的音声-視覚同期損失と12次元姿勢コードの重要性を示し、姿勢制御の成功に寄与する。
- ユーザ調査では、PC-AVSは他のいくつかのベースラインと比較して、頭部運動の自然さと映像のリアリティが高いことを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。