QUICK REVIEW

[論文レビュー] Convolutional Network for Attribute-driven and Identity-preserving Human Face Generation

Mu Li, Wangmeng Zuo|arXiv (Cornell University)|Aug 23, 2016

Face recognition and analysis参考文献 21被引用数 48

ひとこと要約

本論文は、特定の属性を有するリアルな人間の顔を生成しつつ、参照画像のアイデンティティを保持する最適化ベースの深層学習手法を提案する。事前学習済みのVGG-Faceネットワークからの知覚的損失を活用し、アイデンティティ、属性、全変動（TV）正則化を組み合わせることで、勾配降下法を用いて高品質でアイデンティティを保持した顔を生成し、属性駆動型かつアイデンティティ一貫性のある顔生成分野で最先端の結果を達成した。

ABSTRACT

This paper focuses on the problem of generating human face pictures from specific attributes. The existing CNN-based face generation models, however, either ignore the identity of the generated face or fail to preserve the identity of the reference face image. Here we address this problem from the view of optimization, and suggest an optimization model to generate human face with the given attributes while keeping the identity of the reference image. The attributes can be obtained from the attribute-guided image or by tuning the attribute features of the reference image. With the deep convolutional network "VGG-Face", the loss is defined on the convolutional feature maps. We then apply the gradient decent algorithm to solve this optimization problem. The results validate the effectiveness of our method for attribute driven and identity-preserving face generation.

研究の動機と目的

既存のCNNベースの顔生成モデルが、属性を変更する際のアイデンティティ保持に失敗するという限界を解決すること。
指定された属性を有するリアルな人間の顔を生成しつつ、与えられた参照顔のアイデンティティを維持すること。
敵対的訓練やオートエンコーダーを避けて、事前学習済みネットワークからの深層特徴を用いた最適化ベースの画像生成を検討すること。
空間的属性マスクと色空間変換を用いて視覚的品質を向上させること。

提案手法

事前学習済みVGG-Faceネットワークの内部層から抽出した知覚的損失を用いて、顔生成を最適化問題として定式化する。
属性転送、アイデンティティ保持、全変動（TV）正則化を組み合わせた損失関数を定義し、滑らかさと鮮鋭さを確保する。
VGG-Faceネットワークを介して勾配降下法を実行し、空の画像から出発して最終的な顔を生成する。
属性の変更を局所化するための空間的マスクを導入し、特定の顔的属性の視覚的忠実度を向上させる。
生成顔に対して参照画像からの色変換を適用し、色の不一致を是正する。
アイデンティティ忠実度と属性の顕著さのトレードオフを考慮し、知覚的損失に最適な畳み込み層（例：conv3_1）を選択する。

実験結果

リサーチクエスチョン

RQ1深層畳み込みネットワークを用いて、特定の属性を有する顔を生成しつつ、参照画像のアイデンティティを保持することは可能か？
RQ2VGG-Faceにおける異なる畳み込み層の選択が、アイデンティティ保持と属性転送品質のトレードオフに与える影響は何か？
RQ3全変動正則化が、生成顔の視覚的品質とノイズレベルに与える影響は何か？
RQ4空間的マスクと色変換の適用は、生成顔のリアリズムと一貫性を向上させるのにどの程度有効か？

主な発見

本モデルは、『眼鏡をかけている』『笑顔』『大きな鼻』『口を閉じている』といった指定された属性を有するリアルな顔を生成しつつ、参照顔のアイデンティティを効果的に保持した。
知覚的損失に conv3_1 層を用いることで、アイデンティティ忠実度と属性の顕著さのバランスが最良となり、下位（conv2_1）および上位（conv3_2）の層を上回った。
全変動（TV）正則化は画像品質を顕著に向上させる：TV正則化なしでは生成顔がノイズが多くなるが、過剰に重みを付けると過剰に滑らかになりぼやける。
空間的マスクと色変換の導入により、眼鏡や鼻の形状といった局所的属性の視覚的品質が向上した。
LFWデータセットを用いた実験では、属性ラベルに最大10％の誤差が含まれても、本手法は高品質でアイデンティティ保持型の顔を生成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。