QUICK REVIEW

[論文レビュー] Talking Face Generation by Adversarially Disentangled Audio-Visual Representation

Hang Zhou, Yu Liu|arXiv (Cornell University)|Jul 20, 2018

Generative Adversarial Networks and Image Synthesis参考文献 30被引用数 37

ひとこと要約

本稿では、音声または映像入力を用いて高精細でアイデンティティを保持する会話顔の生成を実現する、分離された音声・視覚表現フレームワークを提案する。協調的かつ敵対的学習を通じて、分類的で特徴的な発話およびアイデンティティ表現を同時に学習することにより、先行研究を上回る唇同期の正確性と現実性を達成し、唇読みや音声・視覚検索といった下流タスクにおいても生成品質の向上を実現した。

ABSTRACT

Talking face generation aims to synthesize a sequence of face images that correspond to a clip of speech. This is a challenging task because face appearance variation and semantics of speech are coupled together in the subtle movements of the talking face regions. Existing works either construct specific face appearance model on specific subjects or model the transformation between lip motion and speech. In this work, we integrate both aspects and enable arbitrary-subject talking face generation by learning disentangled audio-visual representation. We find that the talking face sequence is actually a composition of both subject-related information and speech-related information. These two spaces are then explicitly disentangled through a novel associative-and-adversarial training process. This disentangled representation has an advantage where both audio and video can serve as inputs for generation. Extensive experiments show that the proposed approach generates realistic talking face sequences on arbitrary subjects with much clearer lip motion patterns than previous work. We also demonstrate the learned audio-visual representation is extremely useful for the tasks of automatic lip reading and audio-video retrieval.

研究の動機と目的

任意の被験者を対象とした会話顔の生成を可能にし、発話入力と正確に同期させつつアイデンティティを保持すること。
深層表現学習を用いて、会話顔のシーケンスにおける被験者固有のアイデンティティと発話関連のコンテンツを分離すること。
音声・視覚語りかけ認識と音声・視覚同期を、エンドツーエンドの生成フレームワークに統合すること。
分離表現を用いることで、自動唇読みや音声・映像検索などの下流タスクの性能を向上させること。
データ駆動型会話顔生成における、アイデンティティと発話情報の結合された問題に取り組むこと。

提案手法

単語IDラベルを教師信号として用い、映像からの唇読み結果と音声からの発話認識結果を一致させることで、音声・視覚埋め込み空間を学習する。
敵対的学習を用いて、語彙ID（単語ID）表現をアイデンティティ（人物ID）表現から分離し、後者に最小限の発話情報が含まれるようにする。
二重エンコーダー構造により、1枚の参照画像からアイデンティティ特徴を抽出し、音声または映像クリップから発話コンテンツ特徴を抽出する。
生成ネットワークは、分離されたアイデンティティ特徴と発話特徴を組み合わせて顔のシーケンスを合成し、リアルさを向上させるためにGAN損失を適用する。
共有分類器とドメイン敵対的訓練を用いて、特徴の分離と被験者間の一般化を向上させる。
対照的損失を適用することで特徴の識別性を高め、検索および唇読みタスクの性能を向上させる。

実験結果

リサーチクエスチョン

RQ1任意の被験者からの高品質な会話顔生成を可能にするために、分離された音声・視覚表現を学習可能か？
RQ2音声と映像の両方の発話入力を、アイデンティティを保持する顔の生成に相互に交換可能に使用可能か？
RQ3アイデンティティと発話コンテンツの敵対的分離は、唇同期の正確性と視覚的品質を向上させるか？
RQ4学習された表現が、自動唇読みおよび音声・映像検索の性能にどの程度向上効果をもたらすか？
RQ5音声・視覚表現の統合的学習は、顔の動き生成のロバスト性と分離性を向上させるか？

主な発見

提案手法はLRWデータセットにおいて、分類的で特徴的な音声・視覚表現のおかげで、唇読みタスクで最先端の性能を達成した。
敵対的分離により、アイデンティティエンコーダーにおける発話情報の漏れが、テストサンプルで27.8％から9.7％に低下し、有効な分離が確認された。
定性的な結果から、共有分類器と敵対的学習の組み合わせが、ベースラインと比較して唇の動きの持続時間と明瞭さを顕著に向上させた。
音声・視覚マッチングの検索性能は、R@1 = 84.2％、R@10 = 96.7％、Median Rank = 2.1に達し、優れた特徴整合性を示した。
分離後、生成された唇ランドマークと真値との間の平均L2ノルム偏差が低く抑えられ、唇同期の品質が向上した。
フレームワークは、音声または映像入力のいずれからでもエンドツーエンドで生成が可能であり、入力モodalのロバスト性と柔軟性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。