[論文レビュー] Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis
TP-GANは、グローバル構造と局所パッチネットワークを備えた二経路GANを導入し、プロフィールから正面顔を写真実写風で、アイデンティティを保持しつつ合成し、大姿勢認識を改善する。
Photorealistic frontal view synthesis from a single face image has a wide range of applications in the field of face recognition. Although data-driven deep learning methods have been proposed to address this problem by seeking solutions from ample face data, this problem is still challenging because it is intrinsically ill-posed. This paper proposes a Two-Pathway Generative Adversarial Network (TP-GAN) for photorealistic frontal view synthesis by simultaneously perceiving global structures and local details. Four landmark located patch networks are proposed to attend to local textures in addition to the commonly used global encoder-decoder network. Except for the novel architecture, we make this ill-posed problem well constrained by introducing a combination of adversarial loss, symmetry loss and identity preserving loss. The combined loss function leverages both frontal face distribution and pre-trained discriminative deep face models to guide an identity preserving inference of frontal views from profiles. Different from previous deep learning methods that mainly rely on intermediate features for recognition, our method directly leverages the synthesized identity preserving image for downstream tasks like face recognition and attribution estimation. Experimental results demonstrate that our method not only presents compelling perceptual results but also outperforms state-of-the-art results on large pose face recognition.
研究の動機と目的
- 単一のプロフィール画像からの正面視合成の ill-posed な問題に対処する。
- 正面視を生成しつつ個々の同一性を保持する合成モデルを学習する。
- 高品質な正面合成のためにグローバルな構造と局所テクスチャの両方を活用する。
- 再構成を制約するために、敵対的・対称性・アイデンティティ保持の損失を通じて事前情報を取り入れる。
提案手法
- グローバルエンコーダ–デコーダと局所テクスチャ用の4つのランドマーク中心パッチネットワークからなる二経路 TP-GAN を提案する。
- テンプレートベースの最大化結合(max-out fusion)と連続畳み込みを通じてグローバルおよびローカル機能を融合する。
- 生成画像を正面顔データ分布へ近づけるよう敵対的識別器を用いる。
- 顔対称性を活用し自己遮蔽を低減するため、対称性損失(ピクセル空間とラプラシアン空間)を組み込む。
- 事前学習済み Light-CNN の特徴に基づくアイデンティティ保持(知覚的)損失を適用して識別性を維持する。
- L_syn という最終的な合成目的関数に、ピクセル、対称性、敵対、アイデンティティ保持、総変差の項を組み合わせる。
実験結果
リサーチクエスチョン
- RQ1二経路ネットワークは非常に大きな姿勢画像から写真実写風の正面顔を信頼性高く合成できるか?
- RQ2合成された正面顔を使用した場合、明示的なアイデンティティ保持は認識性能を改善しますか?
- RQ3グローバル経路とローカル経路、および各損失項が合成品質と認識精度に与える影響は何ですか?
- RQ4合成された正面顔は、途中特徴を用いた認識よりも優れた「生成による認識」ワークフローを実現しますか?
主な発見
- TP-GAN は大姿勢の入力から写真実写風の正面ビューを実現し、眼鏡や髪型などのアイデンティティ属性を保持します。
- この手法は大姿勢認識タスクで最先端の frontalization 手法を上回り、角度が大きい場合に顕著な向上を示します。
- Light-CNN の特徴を用いた合成正面画像は、ビューを超えた Rank-1 認識でベースラインより高い値を示します。
- 二経路アーキテクチャと L_adv および L_ip 損失の組み合わせが識別性能の最大の向上をもたらします。
- 本アプローチは堅牢なアイデンティティ保持を示し、LFW のような野生データへの一般化も再訓練なしに達成します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。