QUICK REVIEW

[論文レビュー] Generative Adversarial Talking Head: Bringing Portraits to Life with a Weakly Supervised Neural Network

Hai Pham, Yuting Wang|arXiv (Cornell University)|Mar 21, 2018

Generative Adversarial Networks and Image Synthesis参考文献 52被引用数 29

ひとこと要約

本稿では、行動単位（AU）係数を用いて画像ピクセルを直接操作することで、テンプレートやペairedデータを用いずに顔のアイデンティティと顔の細部を保持したまま、静止画のポートレートをアニメーション化する弱教師付き生成的敵対ネットワーク、GATHを紹介する。このモデルは、ジェネレータ、ディスクラミネーター、分類器、AU推定器を統合した共同敵対訓練フレームワークにより、アイデンティティと表現を分離することで、AU推定の正確性において最先端の性能を達成し、テンプレートフリーかつターゲットフリーの顔の表情編集を可能にする。

ABSTRACT

This paper presents Generative Adversarial Talking Head (GATH), a novel deep generative neural network that enables fully automatic facial expression synthesis of an arbitrary portrait with continuous action unit (AU) coefficients. Specifically, our model directly manipulates image pixels to make the unseen subject in the still photo express various emotions controlled by values of facial AU coefficients, while maintaining her personal characteristics, such as facial geometry, skin color and hair style, as well as the original surrounding background. In contrast to prior work, GATH is purely data-driven and it requires neither a statistical face model nor image processing tricks to enact facial deformations. Additionally, our model is trained from unpaired data, where the input image, with its auxiliary identity label taken from abundance of still photos in the wild, and the target frame are from different persons. In order to effectively learn such model, we propose a novel weakly supervised adversarial learning framework that consists of a generator, a discriminator, a classifier and an action unit estimator. Our work gives rise to template-and-target-free expression editing, where still faces can be effortlessly animated with arbitrary AU coefficients provided by the user.

研究の動機と目的

静止画のポートレートから、AU係数のみを制御信号として用いて、自動的かつ高精度な顔の表情合成を実現すること。
ペアドされたソース・ターゲット画像や統計的顔モデルを必要とする従来手法の制限を克服すること。
ソース画像とターゲット画像が異なる個体から得られる非ペアドデータ上で、AU推定とアイデンティティ分類による弱教師付きでモデルを学習すること。
単一のエンドツーエンドの深層ニューラルネットワーク内で、アイデンティティと表現の表現を分離すること。
3Dメッシュやテクスチャワープに依存せずに、リアルで写真のような顔のアニメーションを実現すること。

提案手法

ジェネレータネットワークは、入力されたAU係数に基づいて、ソースポートレートを新たな顔の表情に変換する学習を行う。この際、画像ピクセルを直接操作する。
ディスクラミネーターは、本物の顔の画像と生成された画像を区別するように学習され、敵対的訓練により写真的リアリズムを強制する。
分類器は、生成された顔のアイデンティティを認識するように共同で学習され、表情にわたってアイデンティティの保持が保証される。
アクションユニット推定器（AUE）は、合成されたフレームとターゲットフレーム間の表現力の類似性をAU強度予測により測定することで、弱教師付きの監視を提供する。
ジェネレータ、ディスクラミネーター、分類器は隠れ層を共有しており、アイデンティティと表現の分離を実現する共同最適化が可能である。
モデルは非ペアドデータ上で学習される。ソース画像にはアイデンティティラベルが、ターゲットフレームにはAU係数が付与されており、個体間の一般化が可能である。

実験結果

リサーチクエスチョン

RQ1AU係数のみを制御信号として用いる深層生成モデルは、単一の静止画のポートレートからリアルな顔の表情を合成できるか？
RQ2異なる個体からの非ペアドのソース・ターゲット画像からなる学習データにおいて、アイデンティティと表現の分離を学習する方法は何か？
RQ3ペアドデータや3D顔モデルを必要としない敵対的訓練に、補助的な分類器とAU推定を組み合わせることで、顔のアニメーションの正確性を向上させられるか？
RQ4表情合成中に、顔の形状、肌の色、髪のスタイルといったアイデンティティ特徴をどの程度保持できるか？
RQ5テンプレートやターゲットを必要としない表情編集、特に任意の表情のニュートラル化が可能か？

主な発見

GATHの完全モデルは、統合テストセットにおいて平均AU推定誤差0.477を達成し、ベースラインのGATH-DC（0.486）およびGATH-C（0.481）を上回った。
クラス間合成において、GATHはAU強度推定のRMSEが0.579を記録し、GATH-C（0.583）およびGATH-DC（0.587）を上回った。
定性的な結果から、GATHは非ニュートラルなソース画像からでさえ、まぶたの閉じる、唇を閉じるといった複雑な表情をうまくハリュシネートしていることが示された。
表情抑制実験では、AU係数をゼロとして入力するとニュートラルな顔が生成され、アイデンティティと表現の成功した分離が確認された。
CelebAおよびLFWデータセットからのサンプルから、性別、肌の色、髪のスタイルが異なる多様なアイデンティティに一般化していることが示された。
高品質なリアリズムを実現しているが、依然として顔の輪郭やエッジ付近でテクスチャのダイナミックレンジ損失や色ノイズが見られ、改善の余地があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。