[論文レビュー] EmoTalk: Speech-Driven Emotional Disentanglement for 3D Face Animation
EmoTalkは発話中の感情を内容から分離して3D顔のアニメーションを駆動し、従来手法より豊かな感情表現と口唇同期を実現するとともに、3D-ETFという大規模な3D感情トーキングフェイスデータセットを導入する。
Speech-driven 3D face animation aims to generate realistic facial expressions that match the speech content and emotion. However, existing methods often neglect emotional facial expressions or fail to disentangle them from speech content. To address this issue, this paper proposes an end-to-end neural network to disentangle different emotions in speech so as to generate rich 3D facial expressions. Specifically, we introduce the emotion disentangling encoder (EDE) to disentangle the emotion and content in the speech by cross-reconstructed speech signals with different emotion labels. Then an emotion-guided feature fusion decoder is employed to generate a 3D talking face with enhanced emotion. The decoder is driven by the disentangled identity, emotional, and content embeddings so as to generate controllable personal and emotional styles. Finally, considering the scarcity of the 3D emotional talking face data, we resort to the supervision of facial blendshapes, which enables the reconstruction of plausible 3D faces from 2D emotional data, and contribute a large-scale 3D emotional talking face dataset (3D-ETF) to train the network. Our experiments and user studies demonstrate that our approach outperforms state-of-the-art methods and exhibits more diverse facial movements. We recommend watching the supplementary video: https://ziqiaopeng.github.io/emotalk
研究の動機と目的
- 現実的な発話駆動の3D顔アニメーションを感情表現を含めて Motivateする。
- 発話内容と感情を分離して、話された内容と矛盾しないように感情表現を向上させる。
- エンドツーエンドの学習可能なフレームワークを提供し、個人スタイルと感情強度の制御可能性を実現する。
提案手法
- 感情分離エンコーダ(EDE)を導入し、2つの音声特徴抽出器を用いてcontentとemotionの潜在空間を形成する。
- 混合された感情-内容ペアで再構成をクロスさせる損失を用いて分離を強制する。
- Transformer風の注意機構に基づく感情誘導特徴融合デコーダを開発し、融合特徴を52個のブレンドシェイプ係数へマッピングする。
- 速度損失と分類損失を組み込み、時間的安定性と感情識別性を高める。
- 2D感情データセットからブレンドシェイプラベルを導出し、ブレンドスキニングを適用して3Dメッシュを得ることで3D-ETFデータセットを構築する。
- ブレンドシェイプ係数とFLAMEモデル互換性を用いた2D-to-3D監督付きで訓練・評価する。
実験結果
リサーチクエスチョン
- RQ1感情を内容から効果的に分離して、豊かな3D顔のアニメーションを駆動できるか?
- RQ2感情誘導型融合はリップシンクの忠実度を超えて3D顔の表現力を向上させるか?
- RQ32Dの感情データセットから派生した疑似3Dデータは大規模に3D感情トーキングフェイスの訓練を支援できるか?
主な発見
| Dataset | Method | LVE (mm) | EVE (mm) |
|---|---|---|---|
| RAVDESS | VOCA | 5.091 | 4.188 |
| RAVDESS | MeshTalk | 3.459 | 3.386 |
| RAVDESS | FaceFormer | 3.247 | 3.757 |
| RAVDESS | Ours | 2.762 | 2.493 |
| HDTF | VOCA | 4.447 | 3.286 |
| HDTF | MeshTalk | 3.886 | 3.124 |
| HDTF | FaceFormer | 3.374 | 3.142 |
| HDTF | Ours | 2.892 | 2.364 |
- EmoTalkはRAVDESSおよびHDTFデータセットで、最先端手法よりリップ頂点誤差(LVE)と感情頂点誤差(EVE)が小さい。
- RAVDESSでは、EmoTalkのLVEとEVEはそれぞれ2.762 mmと2.493 mmで、VOCA(5.091, 4.188)、MeshTalk(3.459, 3.386)、FaceFormer(3.247, 3.757)より良い。
- HDTFでは、EmoTalkはLVE 2.892 mm、EVE 2.364 mmを達成し、VOCA(4.447, 3.286)、MeshTalk(3.886, 3.124)、FaceFormer(3.374, 3.142)より良好。
- VOCA-Testでのゼロショット評価は一般化性能が高く、EmoTalkはリップ精度でベースラインを上回る。
- ユーザ調査は、EmoTalkがMeshTalkおよびFaceFormerより全顔リアリズム、リップ同期、感情表現の点で優れていることを示す。
- アブレーション実験は、Emotion Disentangling Encoderと感情誘導型マルチヘッド注意の重要性を感情表現のために確認した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。