[논문 리뷰] Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis
TP-GAN은 글로벌 구조와 로컬 패치 네트워크를 갖춘 두 경로 GAN을 도입하여 측면에서 프론탈 얼굴을 포토리얼리스틱하고 정체성 보존된 전면 얼굴로 합성하고, 큰 자세에서의 인식 성능을 향상시킵니다.
Photorealistic frontal view synthesis from a single face image has a wide range of applications in the field of face recognition. Although data-driven deep learning methods have been proposed to address this problem by seeking solutions from ample face data, this problem is still challenging because it is intrinsically ill-posed. This paper proposes a Two-Pathway Generative Adversarial Network (TP-GAN) for photorealistic frontal view synthesis by simultaneously perceiving global structures and local details. Four landmark located patch networks are proposed to attend to local textures in addition to the commonly used global encoder-decoder network. Except for the novel architecture, we make this ill-posed problem well constrained by introducing a combination of adversarial loss, symmetry loss and identity preserving loss. The combined loss function leverages both frontal face distribution and pre-trained discriminative deep face models to guide an identity preserving inference of frontal views from profiles. Different from previous deep learning methods that mainly rely on intermediate features for recognition, our method directly leverages the synthesized identity preserving image for downstream tasks like face recognition and attribution estimation. Experimental results demonstrate that our method not only presents compelling perceptual results but also outperforms state-of-the-art results on large pose face recognition.
연구 동기 및 목표
- 단일 프로필 이미지에서의 전면 뷰 합성 문제의 ill-posed 문제를 다룬다.
- 개별 정체성을 보존하면서 전면 뷰를 생성하는 합성 모델을 학습한다.
- 높은 품질의 전면 합성을 위해 전역 구조와 로컬 텍스처를 모두 활용한다.
- 재구성을 제약하기 위해 적대적, 대칭성, 정체성 보존 손실을 통해 priors를 도입하여 재구성을 제약한다.
제안 방법
- 전역 인코더–디코더와 로컬 텍스처용 네 개의 랜드마크 중심 패치 네트워크로 구성된 두 경로 TP-GAN을 제안한다.
- 템플릿 기반 맥스-아웃 융합과 연속 합성을 통해 전역 특징과 로컬 특징을 융합한다.
- 생성된 이미지를 전면 얼굴 데이터 분포로 끌어들이기 위해 적대적 판별기를 사용한다.
- 얼굴의 대칭성을 활용하고 자기 가림 효과를 줄이기 위해 대칭 손실(픽셀 공간과 라플라시안 공간)을 포함하여 적용한다.
- 사전에 학습된 Light CNN 특징에 기반한 정체성 보존(지각적) 손실을 적용하여 정체성을 유지한다.
- 픽셀 손실, 대칭 손실, 적대적 손실, 정체성 보존 손실, 전체 변이 항을 포함하는 최종 합성 목적 함수 L_syn으로 손실를 결합한다.
실험 결과
연구 질문
- RQ1매우 큰 자세 이미지로부터 신뢰할 수 있게 포토리얼리스틱한 전면 얼굴을 합성할 수 있는가?
- RQ2합성된 전면 얼굴을 사용할 때 명시적 정체성 보존이 인식 성능을 향상시키는가?
- RQ3전역 경로와 로컬 경로의 차이 및 각 손실 항이 합성 품질과 인식 정확도에 미치는 영향은 무엇인가?
- RQ4합성된 전면 얼굴이 중간 특징을 사용한 인식보다 우수한 실제 '생성으로 인한 인식' 워크플로를 가능하게 하는가?
주요 결과
- TP-GAN은 큰 자세 입력에서도 포토리얼리스틱한 전면 뷰를 달성하고 안경, 헤어 스타일과 같은 정체성 속성을 보존한다.
- 이 방법은 큰 자세 인식 작업에서 최첨단 전면화 방법을 능가하며, 더 큰 각도에서 현저한 이득을 보인다.
- Light-CNN 특징을 사용한 합성 전면 이미지가 기준선보다 뷰 간 Rank-1 인식 성능이 더 높다.
- 두 경로 아키텍처와 L_adv 및 L_ip 손실의 조합이 인식 성능에서 가장 큰 이득을 제공한다.
- 이 접근법은 강력한 정체성 보존을 보여주고 재학습 없이 LFW 같은 실제 환경의 얼굴에도 일반화된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.