QUICK REVIEW

[논문 리뷰] Face Synthesis from Visual Attributes via Sketch using Conditional VAEs and GANs

Xing Di, Vishal M. Patel|arXiv (Cornell University)|2017. 12. 30.

Face recognition and analysis참고 문헌 36인용 수 33

한 줄 요약

이 논문은 시각적 속성에서 고해상도 얼굴 이미지를 합성하기 위해 스케치를 중간 표현으로 사용하는 세 단계 생성 프레임워크인 Attribute2Sketch2Face를 제안한다. 먼저 속성에서 스케치를 생성하고, 이를 개선한 후 최종 얼굴 이미지를 재구성한다. 조건부 VAE와 새로운 AUDeNet 생성자를 갖춘 GAN을 조합하여 스케치 향상 및 얼굴 합성에 사용하며, CelebA, LFWA, CUHK 데이터셋에서 현실성과 속성 충실도 측면에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Automatic synthesis of faces from visual attributes is an important problem in computer vision and has wide applications in law enforcement and entertainment. With the advent of deep generative convolutional neural networks (CNNs), attempts have been made to synthesize face images from attributes and text descriptions. In this paper, we take a different approach, where we formulate the original problem as a stage-wise learning problem. We first synthesize the facial sketch corresponding to the visual attributes and then we reconstruct the face image based on the synthesized sketch. The proposed Attribute2Sketch2Face framework, which is based on a combination of deep Conditional Variational Autoencoder (CVAE) and Generative Adversarial Networks (GANs), consists of three stages: (1) Synthesis of facial sketch from attributes using a CVAE architecture, (2) Enhancement of coarse sketches to produce sharper sketches using a GAN-based framework, and (3) Synthesis of face from sketch using another GAN-based network. Extensive experiments and comparison with recent methods are performed to verify the effectiveness of the proposed attribute-based three stage face synthesis method.

연구 동기 및 목표

최근 속성 예측 기술의 발전에도 불구하고 여전히 미해결 상태인, 시각적 속성에서 사진 수준의 얼굴 이미지를 생성하는 어려운 역문제를 해결하기 위해.
사람의 유사한 법의학적 스케치 과정을 고려해 중간 스케치 표현을 도입함으로써 이미지 품질과 속성 충실도를 향상시키기 위해.
복잡한 얼굴 합성 작업을 다룰 수 있는 하위 작업들(속성 → 스케치, 스케치 향상, 스케치 → 얼굴 생성)으로 분해하는 단계별 학습 프레임워크를 개발하기 위해.
텍스처 속성과 원시 스케치를 융합하여 더 선명한 스케치 출력을 얻을 수 있도록 설계된 새로운 속성 유지 생성자 아키텍처(AUDeNet)를 설계하기 위해.
기존의 텍스트 또는 속성 기반 이미지 생성 방법과 비교해 시각적 품질과 속성 일관성 측면에서 뛰어난 성능을 달성하기 위해.

제안 방법

첫 번째 단계에서는 입력 시각적 속성에서 원시 얼굴 스케치를 생성하기 위해 조건부 VAE(CVAE)를 사용한다.
두 번째 단계인 S2S(Sketch-to-Sketch)는 새로운 AUDeNet 생성자를 사용해 원시 스케치를 향상시키는 GAN 기반 프로세스로, U-Net과 DenseNet 아키텍처를 융합하여 더 나은 특징 전파와 정교화를 달성한다.
세 번째 단계인 S2F(Sketch-to-Face)는 향상된 스케치와 원래 속성을 융합해 고해상도, 색상 얼굴 이미지를 합성하는 다른 GAN 기반 생성자를 사용한다.
AUDeNet 생성자는 텍스처 속성을 명시적으로 인코딩하고 스킵 연결 및 밀집 블록을 활용하여 스케치 향상 과정에서 세부 정보를 유지한다.
모델은 속성과 잠재 벡터를 융합함으로써 속성 일관성을 보장하는 분리 표현 학습을 사용한다.
학습은 세 단계로 수행되며, A2S(CVAE), S2S(GAN + AUDeNet), S2F(GAN) 순서이며, 추론 시 엔드 투 엔드 미세조정이 가능하다.

실험 결과

연구 질문

RQ1직접 속성 → 얼굴 생성 방식과 비교해 볼 때, 단계별 생성 프레임워크가 시각적 속성에서 얼굴 합성의 품질과 현실성 향상에 기여할 수 있는가?
RQ2법의학적 스케치를 영감으로 삼은 중간 스케치 표현을 사용할 경우, 속성 충실도와 이미지 품질이 향상되는가?
RQ3U-Net과 DenseNet을 융합한 새로운 AUDeNet 생성자 아키텍처가 원시 스케치를 효과적으로 향상시키면서도 속성 정보를 유지할 수 있는가?
RQ4최종 합성 단계에서의 분리 표현 학습이 생성된 얼굴들 사이에서 속성 일관성을 얼마나 잘 유지하는가?
RQ5제안된 Attribute2Sketch2Face 프레임워크는 속성 유지 및 이미지 현실성 측면에서 기존 최신 기술 대비 정량적·정성적으로 어떻게 비교되는가?

주요 결과

제안된 Attribute2Sketch2Face 방법은 Inception Score가 CelebA에서 12.18, LFWA에서 10.85, CUHK에서 9.72로 가장 높아, 기준 방법 대비 뛰어난 이미지 현실성과 다양성을 보여준다.
이 방법은 Attribute L2-norm가 CelebA에서 0.87, LFWA에서 1.02, CUHK에서 1.15로 가장 낮아, 합성된 이미지에서 뛰어난 속성 충실도를 입증한다.
정성적 결과에서는 속성 가중치만 변경해도 정체성은 유지한 채 성별, 미소, 피부 톤, 헤어 컬러 등의 얼굴 속성을 변경할 수 있으며, 이는 속성의 분리 표현을 확인한다.
속성을 고정한 상태에서 노이즈 벡터만 변경하면 정체성은 변하지만 속성은 유지되며, 이는 모델의 분리 표현 학습을 확인한다.
절단 실험 결과 각 단계와 AUDeNet 생성자 모두 중요함을 확인했으며, 구성 요소를 제거할 경우 성능이 크게 떨어진다.
이 프레임워크는 다양한 속성과 정체성에 걸쳐 고품질의 사진 수준의 얼굴 이미지를 성공적으로 생성했으며, 시각적 품질이 기존의 CVAE 및 GAN 기반 방법을 초월한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.