[論文レビュー] Talking Face Generation by Conditional Recurrent Adversarial Network
本稿では、顔面と音声特徴を再帰ユニット内で統合して、高精細な会話顔動画を生成し、正確な口元同期と滑らかな顔面運動を実現する条件付き再帰的敵対的ネットワークを提案する。空間的・時間的および口読み識別器を導入することで、後処理を要せず、動画のリアルさ、口元同期の正確さ、視覚的品質の面で最先端の性能を達成し、VoxCelebおよびLRWデータセットの両方で先行手法を上回った。
Given an arbitrary face image and an arbitrary speech clip, the proposed work attempts to generating the talking face video with accurate lip synchronization while maintaining smooth transition of both lip and facial movement over the entire video clip. Existing works either do not consider temporal dependency on face images across different video frames thus easily yielding noticeable/abrupt facial and lip movement or are only limited to the generation of talking face video for a specific person thus lacking generalization capacity. We propose a novel conditional video generation network where the audio input is treated as a condition for the recurrent adversarial network such that temporal dependency is incorporated to realize smooth transition for the lip and facial movement. In addition, we deploy a multi-task adversarial training scheme in the context of video generation to improve both photo-realism and the accuracy for lip synchronization. Finally, based on the phoneme distribution information extracted from the audio clip, we develop a sample selection method that effectively reduces the size of the training dataset without sacrificing the quality of the generated video. Extensive experiments on both controlled and uncontrolled datasets demonstrate the superiority of the proposed approach in terms of visual quality, lip sync accuracy, and smooth transition of lip and facial movement, as compared to the state-of-the-art.
研究の動機と目的
- 正確な口元同期と滑らかな時間的遷移を備えたリアルな会話顔動画を生成する課題に対処すること。
- 時間的依存性を無視するか、異なる顔や音声入力に対して一般化能力に欠ける既存手法の限界を克服すること。
- 専用の識別器を用いた敵対的訓練により、画像および動画のリアルさを向上させること。
- 本物の音声動画で学習した口読み識別器を用いて、生成された口元運動が音声入力と意味的に整合するように敵対的に訓練することで、口元運動の正確さを向上させること。
- 単一人物の動画生成において、自然な顔の表情と頭部ポーズをモデル化できるようにフレームワークを拡張すること。
提案手法
- 条件付き再帰的敵対的ネットワークは、再帰ユニット内に画像特徴と音声特徴を統合し、顔面および口元運動における時間的依存性をモデル化する。
- 空間的・時間的識別器のペアを用いて、個々のフレームにおける写真的リアルさと、フレームシーケンス全体の動画レベルのリアルさを強制する。
- 生成器が音声入力と意味的に整合する口元運動を生成するように、敵対的に訓練する口読み識別器を導入する。
- 再帰ユニットに以前に生成された画像フレームを追加で入力することで、ハイブリッド特徴と併せて、自然なポーズと表情をモデル化できるようにネットワークを拡張する。
- 視覚的忠実度を向上させるために、敵対的損失、再構成損失、および知覚的損失を用いて、エンド・トゥ・エンドでフレームワークを訓練する。
- 本手法はMFCC特徴を直接処理し、デブリングや安定化などの後処理ステップを必要としない。
実験結果
リサーチクエスチョン
- RQ1再帰的敵対的ネットワークは、会話顔生成における顔面および口元運動の両方の時間的依存性を効果的にモデル化できるか?
- RQ2口読み識別器は、ピxls単位の再構成を超えて、口元同期の正確さを顕著に向上させられるか?
- RQ3空間的・時間的識別器は、追加の後処理を要せず、画像および動画のリアルさを向上させられるか?
- RQ4本フレームワークは、未観測の顔や音声入力に対しても、高い視覚的品質と滑らかな運動を維持しながら一般化できるか?
- RQ5本モデルは、単一人物の動画生成において、自然な頭部ポーズと表情の変化を自然に捉えることができるか?
主な発見
- 生成動画における口元読み取りのトップ5精度は63.0%に達し、本物の動画の80%に近づくことから、優れた口元同期忠実度を示した。
- ユーザー評価では、本手法の口元運動の正確さはChungら(2017)を74%の参加者が上回ると評価し、Zhouら(2019)の動画リアルさを87%の参加者が上回ると評価した。
- 本手法は最先端のベースラインを上回り、画像品質において73%のユーザーがChungら(2017)よりアーティファクトやぼやけの低減において優れていると評価した。
- Obamaデータセットでは、拡張モデルが自然な頭部ポーズと表情の変化を伴う動画を効果的に生成し、逐次生成で一般的な顔のずれアーティファクトを回避した。
- 本フレームワークは、動画安定化やデブリングパイプラインの必要性を排除し、生成器から直接高品質な結果を得た。
- アブレーションスタディにより、口読み識別器が口元同期の正確さを顕著に向上させ、ベースライン比でトップ5精度に25%の相対的向上が確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。