QUICK REVIEW

[논문 리뷰] Improving Inversion and Generation Diversity in StyleGAN using a Gaussianized Latent Space

Jonas Wulff, Antonio Torralba|arXiv (Cornell University)|2020. 09. 14.

Generative Adversarial Networks and Image Synthesis참고 문헌 17인용 수 26

한 줄 요약

이 논문은 중간 잠재 공간(W+)에 비선형 변환(leaky ReLU)을 적용하여 StyleGAN의 가우시안화된 잠재 공간을 제안함으로써, 더 안정적인 이미지 복원과 더 높은 다양성을 확보하는 데 기여한다. 이 방법은 다양성을 희생시키지 않은 채 잡음 요소를 감소시키며, 얼굴 정체성을 유지하는 데서 기존의 절단(Truncation) 기법을 능가한다.

ABSTRACT

Modern Generative Adversarial Networks are capable of creating artificial, photorealistic images from latent vectors living in a low-dimensional learned latent space. It has been shown that a wide range of images can be projected into this space, including images outside of the domain that the generator was trained on. However, while in this case the generator reproduces the pixels and textures of the images, the reconstructed latent vectors are unstable and small perturbations result in significant image distortions. In this work, we propose to explicitly model the data distribution in latent space. We show that, under a simple nonlinear operation, the data distribution can be modeled as Gaussian and therefore expressed using sufficient statistics. This yields a simple Gaussian prior, which we use to regularize the projection of images into the latent space. The resulting projections lie in smoother and better behaved regions of the latent space, as shown using interpolation performance for both real and generated images. Furthermore, the Gaussian model of the distribution in latent space allows us to investigate the origins of artifacts in the generator output, and provides a method for reducing these artifacts while maintaining diversity of the generated images.

연구 동기 및 목표

외부 도메인 이미지를 복원할 때 StyleGAN의 잠재 공간에서 발생하는 불안정성과 열악한 내삽 성능을 해결하기 위해.
중간 잠재 공간(W+)의 데이터 분포를 가우시안으로 모델링하여 복원 과정에서 보다 우수한 정규화를 달성하기 위해.
기존의 표준 절단 기법과 달리 다양성을 감소시키지 않고도 생성된 이미지의 잡음 요소를 식별하고 제거하기 위해.
잠재 공간 복원을 위한 원리적이고 데이터 기반의 사전 분포를 제공하여 의미적 일관성과 이미지 품질을 향상시키기 위해.

제안 방법

중간 잠재 벡터 W+에 대해 요소별로 비선형 변환(특히, 요소별 leaky ReLU)을 적용하여 데이터 분포를 가우시안화하기.
변환된 잠재 벡터의 평균 μ와 공분산 Σ를 추정하여 닫힌 형태의 가우시안 사전 분포를 정의하기.
가우시안 사전 분포를 복원 최적화 과정의 정규화 항으로 사용하여, 더 매끄럽고 안정된 잠재 공간 영역으로의 잠재 코드 탐색을 유도하기.
가우시안화된 잠재 공간에 대해 주성분 분석(PCA)을 수행하여 잡음 요소를 유발하는 고차원 성분을 식별하기.
임계값 τσ를 초과하는 성분에 대해 로그 압축을 적용하여 잡음 영향을 감소시키면서도 다양성을 유지하기.
압축 및 재투영된 잠재 코드로부터 이미지를 재구성하여 잡음 감소, 높은 다양성을 갖춘 샘플 생성하기.

실험 결과

연구 질문

RQ1간단한 비선형 변환을 적용한 후 StyleGAN의 W+ 공간에서 데이터 분포를 효과적으로 가우시안으로 모델링할 수 있는가?
RQ2잠재 공간에 가우시안 사전 분포를 도입함으로써 외부 도메인 이미지의 복원 안정성과 품질이 향상되는가?
RQ3가우시안 모델을 사용하여 생성된 이미지의 잡음 요소를 식별하고 제거할 수 있으며, 이때 시각적 다양성이 감소하지 않는가?
RQ4고차원 성분의 로그 압축이 얼굴 정체성 및 이미지 품질 유지를 위해 절단 기법과 비교해 어떻게 성능을 발휘하는가?

주요 결과

W+ 벡터에 요소별 leaky ReLU를 적용한 후의 StyleGAN 잠재 공간은 평균과 공분산로 모델링 가능한 가우시안 분포를 나타낸다.
복원 과정에 가우시안 사전 분포를 통합함으로써 실사 이미지와 생성 이미지 간의 내삽 성능이 크게 향상되어, 더 매끄럽고 안정적인 잠재 표현을 의미한다.
크기가 큰 주성분에 대해 로그 압축을 적용함으로써 생성된 이미지의 잡음 요소가 효과적으로 감소하며, 특히 얼굴 영역에서 두드러진다.
FID 점수가 절단 기법과 동일한 수준일 때, 제안된 방법은 얼굴 임bedding 공간에서 코사인 유사도로 측정한 결과 얼굴 정체성을 유의미하게 더 잘 유지한다.
잡음 보정 조건에서도 절단 기법에 비해 더 높은 시각적 다양성을 유지하며, 주관적으로 원본 입력에 더 가까운 이미지를 생성한다.
절단과 압축의 FID 곡선은 형태가 유사하지만, 동일한 FID 값에서 제안된 방법은 더 높은 인지 품질과 정체성 유지 성능을 확보한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.