QUICK REVIEW

[論文レビュー] Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation

Michał Stypułkowski, Konstantinos Vougioukas|arXiv (Cornell University)|Jan 6, 2023

Generative Adversarial Networks and Image Synthesis被引用数 16

ひとこと要約

この論文は Diffused Heads を紹介します。単一のアイデンティティ画像と音声からトーキングヘッド動画を生成する自己回帰拡散モデルで、追加のガイダンスなしで表現力と滑らかさの点でGANベースの方法を上回ります。

ABSTRACT

Talking face generation has historically struggled to produce head movements and natural facial expressions without guidance from additional reference videos. Recent developments in diffusion-based generative models allow for more realistic and stable data synthesis and their performance on image and video generation has surpassed that of other generative models. In this work, we present an autoregressive diffusion model that requires only one identity image and audio sequence to generate a video of a realistic talking human head. Our solution is capable of hallucinating head movements, facial expressions, such as blinks, and preserving a given background. We evaluate our model on two different datasets, achieving state-of-the-art results on both of them.

研究の動機と目的

GANベースの音声駆動型動画合成の制約、例えば学習の不安定性やモード崩壊といった問題に対処する。
アイデンティティを保ちながら妥当な頭部運動と表情を生成するワンショットのトーキングフェース生成手法を開発する。
アイデンティティ、モーションフレーム、および音声条件付けを組み合わせた拡散モデルを活用して、外部ガイダンスなしで現実感を向上させる。
CREMAおよびLRWデータセットで最先端の表現力と時間的一貫性を実証する。

提案手法

アイデンティティフレーム、モーションフレーム、および音声埋め込みを条件に、1枚ずつフレームを生成する自己回帰拡散モデルを提案する。
拡散過程におけるノイズと分散を予測するため、時間ステップ条件づけを備えた2D U-Netボディを使用する。
モーションフレームを取り入れて時間的ダイナミクスを導き、フレーム間で自然な頭部運動を維持する。
事前学習済みの音声エンコーダとモーション音声埋め込みを介して音声条件付けを投入し、口形と表情を音声と整合させる。
実際の口元領域に焦点を当てたリップシンク損失を、クロップされた真実データ/ノイズを用いて導入し、標準の拡散損失と組み合わせる。
アイデンティティを保つために入力フレームにアイデンティティフレームを連結して訓練し、頑健性を高めるためにランダムなアイデンティティフレームを用いる。

実験結果

リサーチクエスチョン

RQ1単一のアイデンティティ画像と音声のみを用いた場合、拡散ベースの生成はGANベースの手法と比較してトーキングフェイス動画の合成においてどの程度効果的か？
RQ2モーションフレームと音声条件付け埋め込みは、外部ガイダンスなしで現実的で表現力があり、同期したトーキングヘッド動画を実現できるか？
RQ3リップシンクに焦点を当てた損失を含む拡散モデルの学習目的は、唇の動きの正確さや時系列的一貫性にどのような影響を与えるか？

主な発見

方法	FVD	FID	Blinks/s	Blink dur.	OFM	F-MSE	AV off.	AV Conf.	WER
Ours (Diffused Heads)	71.88	3.94	0.35	0.28	70.71	19.69	-	4.61	0.77
SDA	198.84	73.82	0.52	0.28	73.82	18.94	1	7.40	0.77
MakeItTalk	269.29	57.21	0.09	0.28	57.21	3.44	-3	3.16	0.99
Wav2Lip*	366.14	47.12	0.03	0.16	47.12	1.45	-2	6.58	0.51
PC-AVS	153.12	69.59	0.20	0.16	69.59	17.13	-3	6.24	0.64
EAMM	172.18	58.46	0.03	0.16	58.46	4.39	-3	3.83	0.95

Diffused Heads は CREMA および LRW において動画の表現力と滑らかさで最先端の成果を達成し、モード崩壊なしに自然な頭部運動や瞬きが生成される。
LRW における人間の知覚に基づくチューリングテストで、Diffused Heads は先行ベースラインを上回り、実在動画と区別がつかない点で上回った。
定量的指標は、従来手法と比べて競争力のあるまたは優れた FVD および FID のスコアを示し、時間的一貫性（OFM、F‑MSE）およびリップシンク関連指標の改善を示す。
この手法はアイデンティティおよび音声ソースのばらつきに対して頑健であり、分布外のアイデンティティと音声にも一般化する。
アブレーション研究により、モーションフレーム、グレースケールのモーション入力、および2つのモーション-音声埋め込みを使用することで最良の結果が得られることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。