[논문 리뷰] StyleGAN2 Distillation for Feed-forward Image Manipulation
이 논문은 특정한 StyleGAN2 이미지 조작 기법—성별 전환, 노화, 스타일 혼합 등—을 피드포워드 방식의 이미지 간 변환 네트워크로 이행하는 디스틸레이션 방법을 제안한다. StyleGAN2의 분리된 잠복 공간에서 합성된 쌍체 데이터를 생성함으로써, 역전파 기반 최적화와 유사한 고성능 실시간 추론를 달성하며, 성별 전환 작업에서 기존의 언페어드(unpaired) 방법과 StyleGAN 인코더보다 사용자 연구에서 슈퍼리어한 성능을 보였다.
StyleGAN2 is a state-of-the-art network in generating realistic images. Besides, it was explicitly trained to have disentangled directions in latent space, which allows efficient image manipulation by varying latent factors. Editing existing images requires embedding a given image into the latent space of StyleGAN2. Latent code optimization via backpropagation is commonly used for qualitative embedding of real world images, although it is prohibitively slow for many applications. We propose a way to distill a particular image manipulation of StyleGAN2 into image-to-image network trained in paired way. The resulting pipeline is an alternative to existing GANs, trained on unpaired data. We provide results of human faces' transformation: gender swap, aging/rejuvenation, style transfer and image morphing. We show that the quality of generation using our method is comparable to StyleGAN2 backpropagation and current state-of-the-art methods in these particular tasks.
연구 동기 및 목표
- 역전파 기반 잠복 코드 최적화 없이도 실세계 얼굴에 대해 빠르고 피드포워드 방식의 이미지 조작을 가능하게 하기 위해.
- 생산 환경에서 실시간 응용에 부적합한 역전파 기반 최적화의 비현실성을 해결하기 위해.
- StyleGAN2의 분리된 잠복 공간에서 고품질의 합성 쌍체 데이터셋을 생성하여 이미지 간 변환 네트워크를 훈련시키기 위해.
- 합성 데이터로 훈련된 모델이 실세계 이미지로 일반화되는 데 효과적으로 기여할 수 있음을 입증하기 위해.
- 특정 조작 작업에서 기존의 언페어드 이미지 간 변환 방법과 StyleGAN 인코더보다 정량적 지표와 사용자 선호도 측면에서 슈퍼리어한 성능을 보일 수 있도록 하기 위해.
제안 방법
- 제어된 잠복 공간 연산(예: 벡터 덧셈, 보간, 평균화)을 StyleGAN2의 W+ 공간에서 적용함으로써 합성된 쌍체 데이터셋을 생성한다.
- 각 조작 작업(성별 전환, 노화, 스타일 혼합)에 대해 기준 이미지와 조작된 잠복 코드를 사용하여 여러 장면의 삼중체 또는 쌍체 이미지를 생성한다.
- 합성된 쌍체 데이터셋을 기반으로 pix2pixHD 기반의 이미지 간 변환 네트워크를 훈련시어 원본 이미지에서 조작된 이미지로의 매핑을 학습한다.
- StyleGAN2의 잠복 공간의 분리성 특성을 활용하여 다양한, 현실적인, 의미적으로 유의미한 쌍체 데이터셋을 생성한다.
- 디스틸레이션된 모델은 역전파 기반 잠복 최적화를 회피하고 실시간 피드포워드 추론을 가능하게 한다.
- 이 방법은 모듈러하며, 다양한 조작 유형에 대해 별도의 모델을 훈련시킬 수 있다.
실험 결과
연구 질문
- RQ1StyleGAN2의 잠복 공간에서 생성된 합성된 쌍체 데이터는 역전파 없이도 고성능의 피드포워드 방식의 이미지 조작을 가능하게 할 수 있는가?
- RQ2디스틸레이션된 이미지 간 변환 네트워크의 성능은 현실성과 사용자 선호도 측면에서 역전파 기반 잠복 최적화와 비교해 어떻게 되는가?
- RQ3합성 데이터로만 훈련된 모델이 복잡한 조작 작업에서 실세계 이미지로 효과적으로 일반화될 수 있는가?
- RQ4StyleGAN2의 잠복 공간의 분리성이 디스틸레이션된 모델에서 깔끔하고 작업에 특화된 조작을 얼마나 잘 가능하게 하는가?
- RQ5특정 작업, 예를 들어 성별 전환과 노화 작업에서 기존의 언페어드 이미지 간 변환 방법보다 디스틸레이션 방법이 슈퍼리어한 성능을 보일 수 있는가?
주요 결과
- 사용자 연구에서 성별 전환 작업에서 품질과 현실성 측면에서 각각 86%의 승리 비율을 기록하며, StyleGAN 인코더(Nikitko) 및 기타 베이스라인을 초월했다.
- FID 점수는 StyleGAN2의 역전파 최적화 및 최신 언페어드 방법과 유사하며, 성별 전환 작업에서 FID 12.4를 기록했다.
- 사용자 연구 결과, 디스틸레이션된 모델은 StyleGAN2 프로젝션(W+) 및 W+를 사용한 경우에 비해 현실성에서 78%의 승리 비율, 품질에서 86%의 승리 비율을 기록했다.
- 이 방법은 다른 작업으로도 잘 일반화된다: 노화/재생과 스타일 혼합 작업은 실세계 FFHQ 이미지에서 시각적으로 타당하고 일관된 결과를 생성한다.
- 잠복 공간의 엔트레인먼트에도 불구하고, 이 방법은 높은 시각적 품질을 유지하며, 여성 얼굴 생성 시 의도하지 않은 미소 등의 경미한 아티팩트 외에는 거의 문제가 없다.
- 디스틸레이션된 모델은 실시간 추론을 지원하여 생산 환경에 적합하며, 반면 역전파 기반 방법은 너무 느려 실용적으로 사용하기 어려운 편이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.