Skip to main content
QUICK REVIEW

[論文レビュー] Speech-Driven Facial Reenactment Using Conditional Generative Adversarial Networks

Seyed Ali Jalalifar, Hosein Hasani|arXiv (Cornell University)|Mar 20, 2018
Face recognition and analysis参考文献 32被引用数 24
ひとこと要約

本稿では、条件付き生成対抗ネットワーク(C-GAN)と双方向LSTMを用いて、音声入力から写真のようにリアルな唇同期付きの顔映像を生成する音声駆動型顔の再現システムを提案する。まず、双方向LSTMを用いて音声から口のランドマークを予測し、その後、これらのランドマークを条件としてC-GANでリアルな顔を合成することで、正確な同期と話者間の転送性を備えた高精細で自然な会話顔映像を実現する。

ABSTRACT

We present a novel approach to generating photo-realistic images of a face with accurate lip sync, given an audio input. By using a recurrent neural network, we achieved mouth landmarks based on audio features. We exploited the power of conditional generative adversarial networks to produce highly-realistic face conditioned on a set of landmarks. These two networks together are capable of producing a sequence of natural faces in sync with an input audio track.

研究の動機と目的

  • 3Dモデリングや合成に依存しない、写真のようにリアルな会話顔を生成する柔軟でエンドツーエンドの機械学習パイプラインの開発。
  • 音声から映像へのマッピングにおける正確な唇同期の課題の解決。これは1次元から3次元へのマッピングと、時間誤差に対する人間の感受性の高さにより困難である。
  • 従来のグラフィックスベースの手法の限界、例えば歯のリアルな合成の難しさや、不気味の谷効果への感受性の高さを克服すること。
  • 音声駆動のランドマーク予測と顔生成を分離することで、話者間の顔のアイデンティティを転送可能にする。これにより、1人の話者の音声を別の話者の顔のアイデンティティに適用可能となる。
  • 条件付きGANの多様体学習能力と音声的文脈の双方向モデリングを活用することで、耐性と視覚的品質を向上させること。

提案手法

  • 双方向LSTMネットワークを訓練し、音声特徴量から顔の口のランドマークを予測する。これにより、前後の子音を含めた共鳴効果をモデル化する。
  • 条件付きGAN(C-GAN)を用いて、予測された口のランドマークを条件として高精細な顔の画像を生成し、顔のテクスチャと背景を保持する。
  • C-GANは、後続の訓練エポックで固定されたターゲット動画データセット上で微調整され、生成フレーム間での顔のアイデンティティとテクスチャの一貫性を維持する。
  • 音声からランドマークへの予測と画像生成を分離することで、独立した最適化が可能となり、単純なアフィン変換によるソースランドマークの変換で話者間の再現が可能となる。
  • 訓練にはAdam最適化アルゴリズムを用い、検証セットでの損失最小化を実施。視覚的アーチファクトを低減するため、先行するGAN研究からの技術を適用。
  • 顔のランドマークはDlib顔ランドマーク検出器を用いて抽出されるが、本手法はより正確な最新の代替手法とも互換性がある。

実験結果

リサーチクエスチョン

  • RQ13Dモデリングや合成に依存せず、生の音声から写真のようにリアルで唇同期された顔映像を深層学習ベースのシステムが生成可能か?
  • RQ2双方向LSTMは音声から正確な口のランドマークを予測するために、音声的文脈を効果的にモデル化できるか?これにより唇同期の正確性が向上するか?
  • RQ3条件付きGANは口のランドマークのみを条件として、顔のアイデンティティとテクスチャを保持したリアルな顔画像を生成できるか?
  • RQ4本システムは、話者の音声を別の話者の顔のアイデンティティにどの程度転送できるか?視覚的リアリズムと同期性を維持できるか?
  • RQ5主な失敗モードは何か?また、予測されたランドマークとトレーニングドメインのランドマークとのずれとどのように関連しているか?

主な発見

  • 単層の双方向LSTMは、単方向(0.93)および2層の双方向(0.84)バージョンと比較して、300エポックでの検証損失が低く(0.85)あり、最適なパフォーマンスを示した。
  • ドロップアウト率0.3および0.5は一般化性能の向上に寄与し、単層の双方向LSTMは100エポック目で0.88、200エポック目で0.93の検証損失を達成した。
  • C-GANは予測されたランドマークからリアルな顔の画像を効果的に生成した。特に、ターゲット動画データで微調整することで、アイデンティティの保持が向上し、視覚的品質が向上した。
  • 本システムは、話者間の再現に成功し、ヒラリー・クリントンの音声からオバマ大統領の顔を自然に再現した。これはランドマーク変換のみで実現された。
  • 失敗事例の主な原因は、予測されたランドマークとトレーニングドメインの分布との間で大きな差異が生じた場合、特に極端な頭部の姿勢や非典型な口の形状の際に顕著に現れた。
  • モジュール型設計により、音声からランドマークへの変換とランドマークから画像への変換のコンponentを独立して最適化可能であり、Dubsmash風のフェイススワッピングなど、柔軟な応用が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。