QUICK REVIEW

[論文レビュー] Semi-Latent GAN: Learning to generate and modify facial images from attributes

Weidong Yin, Yanwei Fu|arXiv (Cornell University)|Apr 7, 2017

Face recognition and analysis参考文献 44被引用数 36

ひとこと要約

本稿では、半教師あり顔属性空間を用いて、ユーザー定義属性と潜在的属性を同時に学習する新しい生成対抗ネットワーク、Semi-Latent GAN (SL-GAN) を提案する。この手法により、高品質な顔画像生成とアイデンティティを保持した属性変更の両方を実現する。生成画像と属性の間の相互情報量を最大化するための認識ネットワークを導入することで、CelebA および CASIA-WebFace データセットにおいて、視覚的品質、属性の顕著性、アイデンティティ保持性の面で最先端の手法を上回る性能を達成した。

ABSTRACT

Generating and manipulating human facial images using high-level attributal controls are important and interesting problems. The models proposed in previous work can solve one of these two problems (generation or manipulation), but not both coherently. This paper proposes a novel model that learns how to both generate and modify the facial image from high-level semantic attributes. Our key idea is to formulate a Semi-Latent Facial Attribute Space (SL-FAS) to systematically learn relationship between user-defined and latent attributes, as well as between those attributes and RGB imagery. As part of this newly formulated space, we propose a new model --- SL-GAN which is a specific form of Generative Adversarial Network. Finally, we present an iterative training algorithm for SL-GAN. The experiments on recent CelebA and CASIA-WebFace datasets validate the effectiveness of our proposed framework. We will also make data, pre-trained models and code available.

研究の動機と目的

既存のモデルが顔画像の生成や変更のどちらかしか行えないというギャップを解消する。
解釈可能な意味論的特徴とコンactなデータ駆動型特徴を両方捉える、ユーザー定義属性と潜在的属性の共同表現を学習する。
生成画像の視覚的忠実度を保ちながら、属性変更時におけるアイデンティティの一貫性を維持する。
生成と変更の両タスクを同時に最適化できる統合型トレーニングフレームワークを開発する。

提案手法

ユーザー定義属性とデータ駆動型潜在属性を統合した半教師あり顔属性空間（SL-FAS）を定式化する。
SL-GAN を三部構成のフレームワークとして設計する：画像再構成のためのエンコーダ・デコーダ、画像品質のための GAN、および生成画像と属性の間の相互情報量を最大化する認識ネットワーク。
デコーダネットワークを生成器として用い、SL-FAS 内の属性ベクトルから画像を合成する。
生成器、識別器、認識ネットワークを同時に最適化するための反復的トレーニングアルゴリズムを導入する。
生成画像と属性ベクトルの間の相互情報量を最大化することで、認識ネットワークを用いて分離表現を学習する。
adversarial loss、reconstruction loss、および相互情報量最大化を用いて、CelebA および CASIA-WebFace でエンド・ツー・エンドにモデルをトレーニングする。

実験結果

リサーチクエスチョン

RQ1統合型の深層生成モデルは、高精細な顔画像生成とアイデンティティを保持した属性変更を同時に実現できるか？
RQ2ユーザー定義属性と潜在的顔属性を半教師あり空間に統合的にモデル化することで、分離性と制御性をどのように向上させられるか？
RQ3生成画像と属性ベクトルの間の相互情報量を最大化することは、視覚的品質と属性の正確性にどのような影響を与えるか？
RQ4提案手法である SL-GAN は、既存手法と比較して属性変更の忠実度とアイデンティティ保持性においてどのように優れているか？

主な発見

ユーザー評価では、SL-GAN は正しい変更された属性を特定する正答率が 75.0% に達し、icGAN（65.4%）と attrib2img（30.0%）を顕著に上回った。
ユーザー評価において、SL-GAN は属性の顕著性で 4.37、画像品質で 4.20、アイデンティティ類似度で 4.45 を記録し、全指標で他手法を上回った。
定性的な結果から、SL-GAN は「ほてりのある頬」「そり上がった眉」「目元のくま」など、微細な属性を高い視覚的忠実度で正確に変更できていることが示された。
attrib2img は明確な顔貌特徴を保つ一方で、髪の毛の質感がぼやけるのに対し、SL-GAN はよりシャープな髪の毛のディテールを生成した。
モデルは、全体的特徴（例：「男性」、「笑顔」）と局所的特徴（例：「白い肌」、「禿」）を含む多様な属性に良好に一般化している。
反復的トレーニングアルゴリズムにより、生成、変更、アイデンティティ保持という対立する目的を統合フレームワーク内で効果的にバランスさせることができた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。