QUICK REVIEW

[論文レビュー] Text2Video: Text-driven Talking-head Video Synthesis with Phonetic Dictionary

Sibo Zhang, Jiahong Yuan|arXiv (Cornell University)|Apr 29, 2021

Generative Adversarial Networks and Image Synthesis参考文献 11被引用数 3

ひとこと要約

本稿では、発音記号ポーズ辞書とGANベースの生成器を用いた、会話型ヘッド動画のテキスト駆動型生成手法を提案する。この手法により、データ量、学習コスト、推論コストを大幅に削減しつつ、高精細な動画合成が可能となる。本手法は、柔軟性、効率性、話者変動に対する耐性の面で、最先端の音声駆動手法を上回る性能を示す。

ABSTRACT

With the advance of deep learning technology, automatic video generation from audio or text has become an emerging and promising research topic. In this paper, we present a novel approach to synthesize video from the text. The method builds a phoneme-pose dictionary and trains a generative adversarial network (GAN) to generate video from interpolated phoneme poses. Compared to audio-driven video generation algorithms, our approach has a number of advantages: 1) It only needs a fraction of the training data used by an audio-driven approach; 2) It is more flexible and not subject to vulnerability due to speaker variation; 3) It significantly reduces the preprocessing, training and inference time. We perform extensive experiments to compare the proposed method with state-of-the-art talking face generation methods on a benchmark dataset and datasets of our own. The results demonstrate the effectiveness and superiority of our approach.

研究の動機と目的

音声駆動型会話顔生成の限界、すなわち高コストなデータ要件と話者変動への感受性を解消すること。
音声入力および関連する前処理に依存しない、テキスト駆動型の動画生成手法を開発すること。
音声特徴量の代わりに発音記号ポーズ辞書を活用することで、学習および推論の効率を向上させること。
異なる話者や入力テキストに対して耐性があり、高品質な動画合成を実現すること。

提案手法

言語的単位（発音記号）から対応する顔面運動ポーズをマッピングする発音記号ポーズ辞書を構築する。
発音記号ポーズ辞書から得られる補間ポーズを入力として、条件付き生成対抗ネットワーク（cGAN）を訓練し、動画フレームを生成する。
テキスト入力を用いて発音記号列を推論し、その発音記号をポーズ埋め込みにマッピングして動画生成に用いる。
発音記号ポーズ間の補間を適用し、動画生成中に滑らかな遷移を実現する。
発音記号の分離表現を活用することで、言語的コンテンツと話者固有の特徴を分離する。
対抗訓練を用いることで、生成された会話型ヘッド動画の現実性と時間的整合性を向上させる。

実験結果

リサーチクエスチョン

RQ1音声駆動手法と比較して、顕著に少ないデータ量と計算コストで同等または優れた動画品質を達成できるか？
RQ2発音記号ポーズ辞書は、表現力豊かな会話型ヘッド動画生成に必要な顔面運動を十分に捉えられるか？
RQ3音声ベースのベースラインと比較して、本手法は話者変動への感受性をどの程度低減できるか？
RQ4最先端のモデルと比較して、本手法の推論速度および学習効率はどの程度の性能を示すか？
RQ5多様なテキスト入力に対して一般化でき、生成動画の時間的整合性を維持できるか？

主な発見

提案手法は、音声駆動手法に比べて必要な学習データ量を大幅に削減でき、データ依存性が著しく低減された。
言語的コンテンツと話者固有の特徴を分離しているため、話者変動に対して優れた耐性を示した。
音声特徴抽出および同期処理のステップを排除したため、学習および推論時間は著しく短縮された。
ベンチマークおよび独自データセットを用いた広範な実験により、本手法は最先端の音声駆動およびテキスト駆動型会話顔生成モデルを動画品質および効率性の面で上回った。
発音記号ポーズ辞書の活用により、滑らかな顔面運動遷移と向上した時間的整合性を実現した高精細な動画合成が可能になった。
多様なテキスト入力に対して優れた性能を維持しており、良好な一般化能力を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。