QUICK REVIEW

[論文レビュー] Arbitrary Talking Face Generation via Attentional Audio-Visual Coherence Learning

Hao Zhu, Huaibo Huang|arXiv (Cornell University)|Dec 17, 2018

Speech and Audio Processing参考文献 40被引用数 28

ひとこと要約

本稿では、音声と映像のモダリティ間の共有情報量を最大化するために非対称相互情報推定器（AMIE）を導入し、口元領域に焦点を当てる動的アテンション（DA）ブロックを組み込むことで、音声・視覚の整合性および口唇同期性を向上させる、新しい会話顔生成フレームワークを提案する。本手法は、LRWおよびGRIDデータセットで最先端の性能を達成し、PSNR、SSIM、LMD指標において顕著な向上を示しており、アイデンティティおよびポーズの変化に対しても頑健であることが確認された。

ABSTRACT

Talking face generation aims to synthesize a face video with precise lip synchronization as well as a smooth transition of facial motion over the entire video via the given speech clip and facial image. Most existing methods mainly focus on either disentangling the information in a single image or learning temporal information between frames. However, cross-modality coherence between audio and video information has not been well addressed during synthesis. In this paper, we propose a novel arbitrary talking face generation framework by discovering the audio-visual coherence via the proposed Asymmetric Mutual Information Estimator (AMIE). In addition, we propose a Dynamic Attention (DA) block by selectively focusing the lip area of the input image during the training stage, to further enhance lip synchronization. Experimental results on benchmark LRW dataset and GRID dataset transcend the state-of-the-art methods on prevalent metrics with robust high-resolution synthesizing on gender and pose variations.

研究の動機と目的

既存の会話顔生成手法におけるクロスモodal音声・視覚の整合性の欠如に対処すること。
音声と視覚モダリティ間の相互依存関係をモデル化することで、口唇同期性を向上させること。
トレーニング中にアイデンティティ関連およびモーション関連特徴に動的にアテンションを向けることで、特徴の分離を向上させること。
任意のアイデンティティ、ポーズ、話し方スタイルに一般化可能な頑健なフレームワークを開発すること。
包括的なアブレーションおよびユーザースタディを通じて、提案されたAMIEおよびDAモジュールの有効性を検証すること。

提案手法

音声と映像の間の共有情報量を最大化するために、Jensen-Shannon発散に基づくMI推定器を用いる非対称相互情報推定器（AMIE）を導入し、GANトレーニングの初期段階での偏りのある推定を回避する。
実際の画像・音声ペアを用いてMI推定器を訓練する非対称トレーニング戦略を採用し、GANトレーニング中に生成動画と入力音声の間のMIを最大化する。
アイデンティティを表す顔画像と、直前の生成フレームに適応的にアテンションを向けることで、アイデンティティとモーション特徴を分離する動的アテンション（DA）ブロックを提案。
生成器が音声と参照顔画像に条件付けられた条件付きGANフレームワークを採用し、AMIEとDAを生成器およびディスクリミネータに統合。
トレーニングの安定化と時間的整合性の向上を図るため、Jensen-Shannon MI推定器に基づく特徴レベル損失を活用。
生成された顔動画のリアルリズムと時間的整合性を向上させるために、マルチスケールディスクリミネータを適用。

実験結果

リサーチクエスチョン

RQ1音声と視覚モダリティ間の相互情報推定は、会話顔生成における口唇同期性の向上に寄与するか？
RQ2MI推定器の非対称トレーニングは、より安定的かつ効果的な音声・視覚の整合性学習を可能にするか？
RQ3動的アテンション機構は、任意のアイデンティティにおけるアイデンティティとモーション特徴の分離を向上させるか？
RQ4提案されたAMIEおよびDAフレームワークは、視覚的品質および時間的整合性の観点で最先端手法と比較してどのように差をつけるか？
RQ5モデルは、多様なアイデンティティ、ポーズ、話し方スタイルにどの程度一般化可能か？

主な発見

LRWデータセットでは、本手法がPSNR 29.64、SSIM 0.92、LMD 1.18を達成し、先行する最先端手法を上回った。
GRIDデータセットでは、PSNR 31.01、SSIM 0.97、LMD 0.78を達成し、顕著なクロスデータセット一般化性能を示した。
アブレーションスタディの結果、非対称トレーニングとJS推定器を備えたAMIEは、ベースライン比でPSNRが0.58向上し、SSIMが0.03向上した。
動的アテンション（DA）モジュール単体でも、PSNRが0.26、SSIMが0.01向上し、口唇運動の正確性への寄与が顕著であることが示された。
ユーザースタディの結果、56.41%の参加者が本手法をより現実的だと評価し、48.91%が時間的整合性が優れていると評価した。
性別やポーズの変化に対しても高い性能を維持しており、アイデンティティおよび外見の多様性に対し強い頑健性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。