Skip to main content
QUICK REVIEW

[論文レビュー] Audio-driven Talking Face Video Generation with Learning-based Personalized Head Pose

Ran Yi, Zipeng Ye|arXiv (Cornell University)|Feb 24, 2020
Face recognition and analysis参考文献 60被引用数 77
ひとこと要約

この論文は、3D 顔再構成とメモリ拡張 GAN を用いて、個別の頭部ポーズを持つターゲットの話す顔ビデオへソース音声をマッピングするニューラル・パイプラインを提案します。短いターゲット動画で一般的な音声-to-faceマッピングを微調整して、個別化した動作と頭部ポーズを達成します。

ABSTRACT

Real-world talking faces often accompany with natural head movement. However, most existing talking face video generation methods only consider facial animation with fixed head pose. In this paper, we address this problem by proposing a deep neural network model that takes an audio signal A of a source person and a very short video V of a target person as input, and outputs a synthesized high-quality talking face video with personalized head pose (making use of the visual information in V), expression and lip synchronization (by considering both A and V). The most challenging issue in our work is that natural poses often cause in-plane and out-of-plane head rotations, which makes synthesized talking face video far from realistic. To address this challenge, we reconstruct 3D face animation and re-render it into synthesized frames. To fine tune these frames into realistic ones with smooth background transition, we propose a novel memory-augmented GAN module. By first training a general mapping based on a publicly available dataset and fine-tuning the mapping using the input short video of target person, we develop an effective strategy that only requires a small number of frames (about 300 frames) to learn personalized talking behavior including head pose. Extensive experiments and two user studies show that our method can generate high-quality (i.e., personalized head movements, expressions and good lip synchronization) talking face videos, which are naturally looking with more distinguishing head movement effects than the state-of-the-art methods.

研究の動機と目的

  • 個別の頭部ポーズを持つ自然な話す-face動画生成を、固定ポーズではなく動的ポーズへ動機づける。
  • 一般的な音声-to-faceマッピングを学習し、それを短いターゲット動画で微調整して、個別の頭部動作と表情を捉える。
  • 3D 顔のアニメーションとレンダリングを通じて音声と視覚的手がかりを橋渡しし、現実的なフレームを生成する。
  • メモリ拡張 GAN によってレンダリングフレームを改良し、任意のターゲット識別子に適応する。

提案手法

  • Stage 1: LSTM ネットワークを用いて音声 MFCC 特徴から 3DMM 表情とポーズの一般的な音声-to-表現・頭部ポーズマッピングを学習する。
  • Stage 2: 短い動画からターゲットの 3D 顔を再構築し、個別の話し振る舞いを捉えるようマッピングを微調整し、Stage-2 の 3D 顔のアニメーションを取得する。
  • ターゲット識別子のテクスチャ/照明を使用して 3D 顔のアニメーションをフレームにレンダリングし、次に識別特徴とメモリモジュールを用いて識別子間で適応する、メモリ拡張 GAN で改良する。
  • リファインメントのために識別子特徴を保存・取得するメモリネットワークを使用し、ワンショット/数ショットの個別化を可能にする。
  • 2-stream 条件付けで GAN を訓練する:レンダリングされたフレームのウィンドウと識別子特徴を用い、注意機構を持つ生成器と PatchGAN ベースの識別器を用いる。

実験結果

リサーチクエスチョン

  • RQ1短いターゲット動画に基づく個別頭部ポーズを取り入れつつ、音声だけで自然なリップシンクを駆動できるか?
  • RQ23D 幾何とレンダリングを学習ベースの改良と統合して、任意の識別子に対して現実的な話す顔ビデオを生成できるか?
  • RQ3メモリ拡張 GAN は異なる被写体間で高品質で識別性を持つフレーム改良を可能にするか?
  • RQ4個別化頭部ポーズ適応のために約 300 フレームの小規模ターゲット動画で微調整する効果は?

主な発見

手法PSNRSSIMLMD
Chen29.650.731.73
Wiles29.820.751.60
You said that29.910.771.63
DAVS29.900.731.73
ATVG30.910.811.37
Ours-G30.940.751.58
  • 提案された Ours-P モデルは、主観的なユーザー調査において、最先端手法よりも画像品質、リップ同期、および自然さが優れている。
  • LRW データセットの定量結果は、Ours-G が最高の PSNR(30.94)を達成し、SSIM(0.75)および LMD(1.58)も Chen、Wiles、You said that、DAVS、ATVG と比較して競合的であることを示している。
  • 本手法は、単一入力フレームを用いた場合でも前法と比較して同等または優れた定量的プロファイルで良好なリップ同期を示す(Ours-G)。
  • 約 300 フレームでの微調整(Ours-P)は、個別化頭部ポーズと表情を可能にし、固定ポーズベースラインよりも定性的およびユーザー調査評価で優れている。
  • 識別子条件付き改良を備えたメモリ拡張 GAN は、非メモリベースラインよりも多様な識別子に対してより現実的な質感と顔の細部を生成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。