Skip to main content
QUICK REVIEW

[論文レビュー] CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior

Jinbo Xing, Menghan Xia|arXiv (Cornell University)|Jan 6, 2023
Face recognition and analysis被引用数 9
ひとこと要約

CodeTalker は speech-driven 3D 顔のアニメーションを、学習した離散的モーションコードブック上のコードクエリ問題として扱い、従来より鮮明でリップシンクされたモーションと自然な表現を実現する。

ABSTRACT

Speech-driven 3D facial animation has been widely studied, yet there is still a gap to achieving realism and vividness due to the highly ill-posed nature and scarcity of audio-visual data. Existing works typically formulate the cross-modal mapping into a regression task, which suffers from the regression-to-mean problem leading to over-smoothed facial motions. In this paper, we propose to cast speech-driven facial animation as a code query task in a finite proxy space of the learned codebook, which effectively promotes the vividness of the generated motions by reducing the cross-modal mapping uncertainty. The codebook is learned by self-reconstruction over real facial motions and thus embedded with realistic facial motion priors. Over the discrete motion space, a temporal autoregressive model is employed to sequentially synthesize facial motions from the input speech signal, which guarantees lip-sync as well as plausible facial expressions. We demonstrate that our approach outperforms current state-of-the-art methods both qualitatively and quantitatively. Also, a user study further justifies our superiority in perceptual quality.

研究の動機と目的

  • ロバストで高忠実な音声から3D顔マッピングを推進するために、離散モーションプリオリで跨-modal の不確定性を低減する。
  • VQ-VAE による実顔モーションからモーションプリミティブの有限かつ表現力のあるコードブックを学習し、モーション空間を表現する。
  • 音声とスタイル入力からモーションコードを予測する時系列自己回帰モデルを開発し、シーケンスを合成する。
  • 標準ベンチマークとユーザー調査を通じて、リップ同期と表現的ダイナミクスの改善を示す。

提案手法

  • トランスフォーマー型 VQ-VAE(エンコーダ E、デコーダ D)を用いて実際の顔モーションを自己再構成することで離散的な顔モーションコードブック Z = {z_k} を学習する。
  • latent モーション特徴を最近傍のコードブックエントリに量子化して Q(ĤZ) を形成し、有限の代理空間のモーションプリミティブを作る。
  • コードブックとデコーダを凍結し、wav2vec 2.0 ベースの音声エンコーダとクロスモーダル・トランスフォーマー・デコーダを用いた音声条件付き自己回帰モデルを訓練して、音声とスタイルベクター s からモーションコードを予測する。
  • 推論時には M 個の学習可能な基底ベクトルを持つスタイル埋め込みを用いて、話し方スタイルの条件付けと推論時のスタイル内補間を可能にする。
  • モーションレベルの L1 損失に加えてコードブック整列損失(VQ 損失)とモーション再構成損失を用い、非微分可能な量子化器にはストレートスルー勾配を適用して訓練する。
  • 推論時には音声とスタイルからモーショントークンを再帰的に予測し、コード列をデコード D でモーションへ照会し、アニメーション用に M1:T を蓄積する。

実験結果

リサーチクエスチョン

  • RQ1離散モーションプリオリは、連続/回帰ベースの方法と比較して音声駆動型3D顔アニメーションのリアリズムと多様性を向上させるのか。
  • RQ2学習済みモーションコードブック上のクロスモーダル自己回帰モデルは、多様な発話スタイル下で正確なリップシンクと自然な表情を達成できるのか。
  • RQ3話者に依存しない一般的なモーションプリオリは、話者個別表現よりも一般化において有効なのか。
  • RQ4定量指標と知覚調査は、CodeTalker を VOCA、MeshTalk、FaceFormer と標準データセットでどう比較するのか。

主な発見

MethodLip Vertex Error (×10^-4 mm)FDD (×10^-5 mm)
VOCA6.55638.1816
MeshTalk5.91815.1025
FaceFormer5.30774.6408
CodeTalker (Ours)4.79144.1170
  • CodeTalker は BIWI-Test-A で VOCA、MeshTalk、FaceFormer よりリップ頂点誤差と上半面ダイナミクスのずれが小さく、リップ同期と動的表現が改善されている(Lip Vertex Error: 4.7914 vs 6.5563, 5.9181, 5.3077; FDD: 4.1170 vs 8.1816, 5.1025, 4.6408)。
  • ユーザー調査では、CodeTalker は VOCA より好評(Lip Sync 86.02%、Realism 84.95%)、MeshTalk より好評(Lip Sync 95.70%、Realism 92.47%)、FaceFormer より好評(Lip Sync 70.97%、Realism 69.89%)。
  • CodeTalker は上半面モーション統計で優れており、リップ同期だけでなく自然で表現的なダイナミクスを示す。
  • アブレーションにより、動作ベースのコードブック(形状と絡ませたコードではなく)を用いた場合、再構成とリップ精度が改善され、離散モーションプリオリの有効性が検証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。