QUICK REVIEW

[論文レビュー] ObamaNet: Photo-realistic lip-sync from text

Rithesh Kumar, Jose Sotelo|arXiv (Cornell University)|Dec 6, 2017

Speech and Audio Processing参考文献 5被引用数 85

ひとこと要約

tldr: ObamaNet は、入力テキストを音声に変換し、Obama videos で実証された、人物の同期したフォトリアルな口パク動画を生成する完全に訓練可能なアーキテクチャです。

ABSTRACT

We present ObamaNet, the first architecture that generates both audio and synchronized photo-realistic lip-sync videos from any new text. Contrary to other published lip-sync approaches, ours is only composed of fully trainable neural modules and does not rely on any traditional computer graphics methods. More precisely, we use three main modules: a text-to-speech network based on Char2Wav, a time-delayed LSTM to generate mouth-keypoints synced to the audio, and a network based on Pix2Pix to generate the video frames conditioned on the keypoints.

研究の動機と目的

任意のテキストから音声と口パク動画の双方を生成することを目的とする。
従来のCG手法を避けるためにニューラルモジュールを活用する。
トランスクリプト付きのクローズアップ話者ビデオから訓練を可能にする。
生成された音声に対してフレーム単位で口の動きを同期させる。

提案手法

入力テキストから音声を合成する Char2Wav ベースの Text-to-speech モジュール。
音声特徴から口元キーポイント表現を予測する時間遅延 LSTM。
正規化された口元キーポイントに対して PCA を適用し、口の形状のコンパクトな表現を得る。
口元キーポイントと口の輪郭を条件とした Pix2Pix ベースのネットワークによる動画生成。
入力は輪郭を含む切り抜き済みの口元領域で、出力は口元領域をインペイントした全顔フレーム。
GAN オブジェクティブなしのピクセル空間再構成のために L1 損失のみに依存して訓練する。

実験結果

リサーチクエスチョン

RQ1任意のテキストから音声と口パク動画の双方を一つのニューラルパイプラインで生成できるか？
RQ2手動のグラフィックス手法を使わずに、生成音声に合わせた口の動きをニューラルアプローチでどれだけうまく揃えられるか？
RQ3クローズアップ話者動画のコレクションで訓練して、新しいターゲットへ一般化することは可能か？
RQ4キーポイントベースの条件付けが現実的な口の動き生成において果たす役割は？

主な発見

完全にニューラルなテキストから動画へのシステムを、TTS、口元キーポイント予測、動画インペインティングの三モジュールで実証。
キーポイントを正規化し、PCA によって音声にリンクした口の形状ダイナミクスの本質を捉える。
動画生成ネットワークは明示的な時間的一貫性損失なしの Pix2Pix を用いても、フレームごとに一貫した口の動きを生み出す。
このアプローチは、Obama の動画データとトランスクリプトで訓練して、音声と同期した口の動作を合成できる。
フレームごとに口元キーポイントを条件として並列生成を行い、対象動画文脈に合わせてデノーマライズする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。