Skip to main content
QUICK REVIEW

[論文レビュー] VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

Sicheng Xu, Guojun Chen|arXiv (Cornell University)|Apr 16, 2024
Speech and Audio Processing被引用数 9
ひとこと要約

VASA-1 は 1 枚の画像からリアルタイムで高忠実度の音声駆動型トーキングフェイス動画を生成し、同期した口の動き、表情豊かな顔のダイナミクス、自然な頭部運動を実現します。分離された顔潜在空間における拡散ベースの総合的な表情ダイナミクスモデルを用います。

ABSTRACT

We introduce VASA, a framework for generating lifelike talking faces with appealing visual affective skills (VAS) given a single static image and a speech audio clip. Our premiere model, VASA-1, is capable of not only generating lip movements that are exquisitely synchronized with the audio, but also producing a large spectrum of facial nuances and natural head motions that contribute to the perception of authenticity and liveliness. The core innovations include a holistic facial dynamics and head movement generation model that works in a face latent space, and the development of such an expressive and disentangled face latent space using videos. Through extensive experiments including evaluation on a set of new metrics, we show that our method significantly outperforms previous methods along various dimensions comprehensively. Our method not only delivers high video quality with realistic facial and head dynamics but also supports the online generation of 512x512 videos at up to 40 FPS with negligible starting latency. It paves the way for real-time engagements with lifelike avatars that emulate human conversational behaviors.

研究の動機と目的

  • リアルなオーディオ駆動型トーキングフェイス生成を口元同期以上に動機づける。
  • holistic facial dynamics と頭部運動のための分離された表情潜在空間を開発する。
  • リアルタイム生成を高い視覚品質と制御可能な信号(視線、距離、感情)で実現する。
  • 潜在空間で音声条件付き表情ダイナミクスをモデル化する拡散トランスフォーマーを活用する。

提案手法

  • V_app、z_id、z_pose、z_dyn からなる V.app の要素を備えた 3D 支援の分離可能な顔潜在空間を構築する。
  • 音声特徴からアイデンティティに依存しない総合的な顔ダイナミクスと頭部運動をモデル化する拡散トランスフォーマーを訓練する。
  • 条件付き拡散フレームワークを用い、オプションの制御(視線 g、距離 d、感情 e)と安定したサンプリングのための分類子不要ガイダンスを採用する。
  • 入力画像からの外観・アイデンティティ特徴を用いた顔デコーダーを介して動作潜在コードを動画フレームへデコードする。
  • 表現力豊かで制御可能な出力を達成するために大規模なトーキングフェイス動画(VoxCeleb2 と追加の高解像度データセット)で訓練する。
Figure 1: Given a single portrait image, a speech audio clip, and optionally a set of other control signals, our approach produces a high-quality lifelike talking face video of 512 $\times$ 512 resolution at up to 40 FPS. The method is generic and robust, and the generated talking faces can faithful
Figure 1: Given a single portrait image, a speech audio clip, and optionally a set of other control signals, our approach produces a high-quality lifelike talking face video of 512 $\times$ 512 resolution at up to 40 FPS. The method is generic and robust, and the generated talking faces can faithful

実験結果

リサーチクエスチョン

  • RQ1潜在空間での総合的でアイデンティティに依存しない顔ダイナミクスを効果的にモデル化して、音声から口唇の同期と自然な頭部姿勢を生み出せるか。
  • RQ2拡散トランスフォーマーに基づくアプローチは、口の音声同期、姿勢整列、および全体的な動画品質で従来法を上回るか。
  • RQ3制御可能な信号(視線、頭部距離、感情)は生成されたトーキングフェイスのリアリズムと可制御性にどのように影響するか。
  • RQ4サンプリングステップと CFG スケールが口唇同期、頭部姿勢、動画品質に与える影響はどのようか。

主な発見

  • 従来法に対して lip 同期と姿勢整合性の両方の指標で VoxCeleb2 および OneMin-32 のベンチマークを上回る。
  • 音声-唇同期スコア: Ours は VoxCeleb2 で S_C=8.841、S_D=6.312、OneMin-32 で CAPP=0.468、ΔP=0.304。
  • CAPP 指標は音声-頭部姿勢の整合性と相関し、フレームシフトで低下することが示され、音声-頭部姿勢同期の堅牢な評価を示す。
  • CFG 調整(音声 CFG λ_A=0.5 と視線 CFG λ_g=1.0)は口唇と音声の整合性および姿勢同期を改善する。サンプリングステップは速度と品質をトレードオフする(ステップ数が少ないほど推論が速い)。
  • 動画品質(FVD_25)はベースラインより大幅に良く、OneMin-32 で提案法の FVD_25=105.884 に対し実動画は 29.244 で、生成シークエンスの現実感が高いことを示す。
Figure 2: Our holistic facial dynamics and head pose generation framework with diffusion transformer.
Figure 2: Our holistic facial dynamics and head pose generation framework with diffusion transformer.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。