QUICK REVIEW

[論文レビュー] Hierarchical Cross-Modal Talking Face Generationwith Dynamic Pixel-Wise Loss

Lele Chen, Ross K. Maddox|arXiv (Cornell University)|May 9, 2019

Face recognition and analysis参考文献 35被引用数 27

ひとこと要約

本稿では、音声から顔の特徴点を最初に推定し、その特徴点を条件として動画フレームを生成する階層的カスケード GAN フレームワークを提案する。この手法により、唇の同期性とノイズおよびポーズ変動に対するロバスト性が著しく向上する。動的な調整可能なピクセル単位の損失と回帰ベースの識別器を導入し、LRW、GRID、VoxCeleb、TCD データセットにおいて定量的および定性的な両面で最先端の性能を達成した。

ABSTRACT

We devise a cascade GAN approach to generate talking face video, which is robust to different face shapes, view angles, facial characteristics, and noisy audio conditions. Instead of learning a direct mapping from audio to video frames, we propose first to transfer audio to high-level structure, i.e., the facial landmarks, and then to generate video frames conditioned on the landmarks. Compared to a direct audio-to-image approach, our cascade approach avoids fitting spurious correlations between audiovisual signals that are irrelevant to the speech content. We, humans, are sensitive to temporal discontinuities and subtle artifacts in video. To avoid those pixel jittering problems and to enforce the network to focus on audiovisual-correlated regions, we propose a novel dynamically adjustable pixel-wise loss with an attention mechanism. Furthermore, to generate a sharper image with well-synchronized facial movements, we propose a novel regression-based discriminator structure, which considers sequence-level information along with frame-level information. Thoughtful experiments on several datasets and real-world samples demonstrate significantly better results obtained by our method than the state-of-the-art methods in both quantitative and qualitative comparisons.

研究の動機と目的

音声から写真のようにリアルな、時間的に整合性のある会話顔を生成する課題に取り組むが、ノイズの多い音声や多様な顔のポーズに対してもロバストであるようにする。
中間モダリティとしての高レベルな顔の特徴点表現を導入することで、音声と関係のない視覚的ダイナミクス（例：頭の動き、カメラの角度）との誤った相関を低減する。
マルチモーダル RNN 生成器を用いてフレーム間の依存関係をモデル化することで、時間的整合性を向上させ、ピクセルのジャイタリングを低減する。
注目メカニズムを介して、音声と視覚が関連する領域（例：口の動き）に焦点を当てる動的な調整可能なピクセル単位の損失により、焦点を関係のある領域に集中させる。
フレームレベルとシーケンスレベルの両方の特徴を評価する新しい回帰ベースの識別器を導入することで、リアリズムと同期性を向上させる。

提案手法

カスケード GAN アーキテクチャを採用：音声 → 顔の特徴点（AT-net を通じて） → 動画フレーム（MMCRNN 生成器を通じて）、音声から特徴点へのマッピングと特徴点から画像へのマッピングを分離する。
隣接フレーム間の時間的依存関係をモデル化するためのマルチモーダル畳み込み-RNN（MMCRNN）生成器を用い、動きのなめらかさを向上させる。
注目マップに基づいて損失を動的に重み付けする動的な調整可能なピクセル単位の損失（DAL）を導入し、音声と視覚が関連する領域（例：口）に焦点を当てる。
視覚的ダイナミクスが会話と最も関連する領域を強調する注目メカニズムを適用し、関係のない動きへの注目を低減する。
フレームレベルのピクセル変動とシーケンスレベルの時間的整合性の両方を評価する回帰ベースの識別器（RD）を提案し、リアリズムと同期性を向上させる。
忠実度とアライメントを保証するため、 adversarial loss、perceptual loss、landmark 再構成 loss の組み合わせを用いてモデルを訓練する。

実験結果

リサーチクエスチョン

RQ1顔の特徴点を中間表現として用いる階層的アプローチが、ノイズの多い音声や多様な顔のポーズ下でも会話顔生成のロバスト性を向上させるか？
RQ2注目メカニズムを備えた動的な調整可能なピクセル単位の損失が、モデルの音声と視覚が関連する領域への注目を向上させ、アーティファクトを低減するか？
RQ3フレームレベルとシーケンスレベルの両方の特徴を同時に評価する回帰ベースの識別器が、時間的整合性とリアリズムを向上させるか？
RQ4DMA、MMCRNN、DAL、RD の各モジュールが、画像品質および唇同期性という観点から、全体の性能にどのように寄与しているか？
RQ5モデルは、顔のポーズや音声条件が異なる状況下でも、未学習の顔（例：コマーシャルや動物のキャラクター）に一般化できるか、その程度はいかほどか？

主な発見

提案された ATVGnet モデルは、すべてのデータセットで最高のユーザーランクスコア（平均 8.7/10）を達成し、最先端の手法に比べて知覚的品質とリアリズムで優れている。
LRW および GRID データセットでは、最高の SSIM（0.89）と PSNR（33.84）スコアを記録し、それぞれ LMD（特徴点距離）が 0.70 および 0.76 と、優れたアライメントと品質を示している。
アブレーションスタディの結果、MMCRNN や DMA を削除すると性能が最も著しく低下（例：PSNR が 29.90 および 30.22 に低下）、時間的滑らかさと注目焦点の重要性が確認された。
生成された特徴点にガウスノイズ（σ=0.1 まで）を追加しても、モデルは高い性能を維持しており、特徴点予測誤差に対するロバスト性を示している。
ユーザースタディの結果、モデルは音声と最も同期の取れた唇の動きを生成しており、特にノイズの多い VoxCeleb サンプルで顕著である。ただし、クリアな VoxCeleb データでは Chung et al. [3] よりわずかに性能が劣るが、背景ノイズの影響によるものである。
モデルは未学習の顔（例：コマーシャルや動物のキャラクター）に対しても一般化が良く、訓練データにない顔に対しても妥当で同期の取れた顔の動きを生成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。