QUICK REVIEW

[論文レビュー] Face Synthesis from Visual Attributes via Sketch using Conditional VAEs and GANs

Xing Di, Vishal M. Patel|arXiv (Cornell University)|Dec 30, 2017

Face recognition and analysis参考文献 36被引用数 33

ひとこと要約

本論文では、視覚的属性からスケッチを生成し、その後に精錬して最終的な顔画像を再構築する3段階の生成フレームワーク、Attribute2Sketch2Faceを提案する。視覚的属性からスケッチを生成するための条件付きVAEと、スケッチの強化および顔画像の合成に新しいAUDeNet生成器を用いたGANを組み合わせることで、CelebA、LFWA、CUHKのデータセットにおいて、リアルさと属性の正確性の両面で最先端の性能を達成した。

ABSTRACT

Automatic synthesis of faces from visual attributes is an important problem in computer vision and has wide applications in law enforcement and entertainment. With the advent of deep generative convolutional neural networks (CNNs), attempts have been made to synthesize face images from attributes and text descriptions. In this paper, we take a different approach, where we formulate the original problem as a stage-wise learning problem. We first synthesize the facial sketch corresponding to the visual attributes and then we reconstruct the face image based on the synthesized sketch. The proposed Attribute2Sketch2Face framework, which is based on a combination of deep Conditional Variational Autoencoder (CVAE) and Generative Adversarial Networks (GANs), consists of three stages: (1) Synthesis of facial sketch from attributes using a CVAE architecture, (2) Enhancement of coarse sketches to produce sharper sketches using a GAN-based framework, and (3) Synthesis of face from sketch using another GAN-based network. Extensive experiments and comparison with recent methods are performed to verify the effectiveness of the proposed attribute-based three stage face synthesis method.

研究の動機と目的

視覚的属性から写真のような顔画像を生成する困難な逆問題に対処すること。これは、属性予測の分野で進展が見られるものの、依然として未解決の課題である。
人間の法医学的スケッチのプロセスを模倣した中間のスケッチ表現を導入することで、画像品質と属性の正確性を向上させること。
複雑な顔画像合成を管理可能なサブタスクに分解する段階的学習フレームワークを構築すること。具体的には、属性からスケッチへの変換、スケッチの強化、スケッチから顔への生成の各段階を含む。
テクスチャ属性と粗いスケッチを統合する新しい属性保存型生成器アーキテクチャ（AUDeNet）を設計し、より明確なスケッチ出力を得ること。
従来のテキストや属性ベースの画像生成手法と比較して、視覚的品質と属性の一貫性の両面で優れた性能を達成すること。

提案手法

最初の段階では、入力の視覚的属性から粗い顔のスケッチを生成するために条件付きVAE（CVAE）を用いる。
S2S（スケッチからスケッチ）段階では、GANベースのアプローチを用い、U-NetとDenseNetアーキテクチャを組み合わせた新しいAUDeNet生成器によって粗いスケッチを強化する。
S2F（スケッチから顔）段階では、強化されたスケッチと元の属性を統合するGANベースの生成器を用い、高解像度でカラーの顔画像を合成する。
AUDeNet生成器は、テクスチャ属性を明示的に符号化し、スキップ接続と密なブロックを活用して、スケッチ強化中に微細なディテールを保持する。
属性と潜在ベクトルを融合させることで、顔画像合成中に属性の一貫性を保証する、分離表現学習を採用する。
トレーニングは3段階で実施される：A2S（CVAE）、S2S（AUDeNetを搭載したGAN）、S2F（GAN）で、推論段階でエンドツーエンドのファインチューニングが可能である。

実験結果

リサーチクエスチョン

RQ1直接的な属性から顔への生成と比較して、段階的生成フレームワークは、視覚的属性からの顔画像合成の品質とリアルさを向上させることができるか？
RQ2法医学的スケッチにインspiredされた中間のスケッチ表現を用いることで、属性の正確性と画像品質が向上するか？
RQ3U-NetとDenseNetを統合した新しいAUDeNet生成器アーキテクチャは、粗いスケッチの強化と属性情報の保持に効果的か？
RQ4最終段階の生成において、分離表現学習を採用することで、生成された顔画像の間で属性の一貫性がどの程度維持されるか？
RQ5提案されたAttribute2Sketch2Faceフレームワークは、定量的および定性的に、最先端の手法と比較して属性の保持と画像のリアルさの両面で優れているか？

主な発見

提案されたAttribute2Sketch2Face手法は、CelebA（12.18）、LFWA（10.85）、CUHK（9.72）で最高のInceptionスコアを達成し、ベースライン手法と比較して優れた画像のリアルさと多様性を示した。
本手法は、CelebA（0.87）、LFWA（1.02）、CUHK（1.15）で最小の属性L2ノルムを達成し、合成画像における優れた属性の正確性を示した。
定性的な結果から、属性の重みを変更するだけで顔の属性（例：性別、笑顔、肌の色、髪の色）が変化するが、アイデンティティは変化しないことが確認され、属性の分離性が裏付けられた。
属性を固定したままノイズベクトルを変更すると、アイデンティティが変化するが属性は保持されるため、モデルの分離表現学習が確認された。
アブレーションスタディの結果、各段階およびAUDeNet生成器の重要性が確認され、部品を削除すると性能が著しく低下した。
本フレームワークは、多様な属性とアイデンティティにわたって高品質で写真のような顔画像を効果的に生成でき、従来のCVAEおよびGANベースの手法を上回る視覚的品質を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。