Skip to main content
QUICK REVIEW

[논문 리뷰] StarGAN v2: Diverse Image Synthesis for Multiple Domains

Yunjey Choi, Youngjung Uh|arXiv (Cornell University)|2019. 12. 04.
Generative Adversarial Networks and Image Synthesis참고 문헌 52인용 수 96
한 줄 요약

StarGAN v2는 도메인별 스타일 코드와 매핑 네트워크 및 스타일 인코더를 통해 학습된 단일 제너레이터로 다수의 도메인에 걸쳐 다양한 이미지를 생성할 수 있으며, CelebA-HQ 및 AFHQ에서 품질과 다양성 측면에서 기존 방법보다 우수합니다.

ABSTRACT

A good image-to-image translation model should learn a mapping between different visual domains while satisfying the following properties: 1) diversity of generated images and 2) scalability over multiple domains. Existing methods address either of the issues, having limited diversity or multiple models for all domains. We propose StarGAN v2, a single framework that tackles both and shows significantly improved results over the baselines. Experiments on CelebA-HQ and a new animal faces dataset (AFHQ) validate our superiority in terms of visual quality, diversity, and scalability. To better assess image-to-image translation models, we release AFHQ, high-quality animal faces with large inter- and intra-domain differences. The code, pretrained models, and dataset can be found at https://github.com/clovaai/stargan-v2.

연구 동기 및 목표

  • 다양한 출력을 생성하는 확장 가능한 다도메인 이미지-투-이미지 번역 프레임워크를 제시한다.
  • 도메인별 스타일 공간을 도입하여 결정론적 매핑을 극복한다.
  • 도메인 스타일 생성 및 추출을 위해 매핑 네트워크와 스타일 인코더를 제안한다.
  • 스타일-일관된 이미지 합성을 보장하면서 소스 도메인 특성을 보존한다.
  • 새로운 고품질 AFHQ 동물 얼굴 데이터셋을 평가를 위해 제공한다.

제안 방법

  • 도메인 라벨을 도메인별 스타일 코드로 대체하여 변환을 구동한다.
  • 잠재 코드로부터 도메인별 스타일을 생성하기 위한 다중 분기 매핑 네트워크를 사용한다.
  • 참조 이미지에서 도메인별 스타일을 추출하기 위해 다중 분기 스타일 인코더를 사용한다.
  • AdaIN(적응형 인스턴스 정규화)을 통해 제너레이터에 스타일 코드를 주입한다.
  • 적대적 손실, 스타일 재구성 손실, 다양성 규제 손실 및 순환 일관성 손실로 최적화한다.
Figure 1: Diverse image synthesis results on the CelebA-HQ dataset and the newly collected animal faces (AFHQ) dataset. The first column shows input images while the remaining columns are images synthesized by StarGAN v2.
Figure 1: Diverse image synthesis results on the CelebA-HQ dataset and the newly collected animal faces (AFHQ) dataset. The first column shows input images while the remaining columns are images synthesized by StarGAN v2.

실험 결과

연구 질문

  • RQ1하나의 제너레이터가 도메인별로 별도의 모델 없이도 여러 도메인에서 다양한 이미지를 생성할 수 있는가?
  • RQ2도메인별 스타일 공간이 소스 특성을 보존하면서 다도메인 다양화를 가능하게 하는가?
  • RQ3도메인 스타일의 매핑 및 인코딩이 기존 기준선 대비 잠재 주도 및 참조 가이드 합성을 모두 개선하는가?
  • RQ4CelebA-HQ를 넘어 새로운 도메인과 데이터셋에 대해 이 접근 방식이 확장 가능한가?
  • RQ5새로 도입된 다도메인 동물 얼굴 데이터셋(AFHQ)에서 StarGAN v2의 성능은 이전 방법과 비교하여 어떤가?

주요 결과

  • StarGAN v2는 기준선보다 뛰어난 시각적 품질과 다양성을 CelebA-HQ와 AFHQ에서 달성했으며 정량적 지표와 정성적 결과로 확인됐다.
  • 잠재 주도 합성에서 StarGAN v2는 CelebA-HQ에서 FID 13.7, LPIPS 0.452, AFHQ에서 FID 16.2, LPIPS 0.450를 달성하며 MUNIT, DRIT, MSGAN보다 우수하다.
  • 참조 가이드 합성에서 StarGAN v2는 CelebA-HQ에서 FID 23.8, LPIPS 0.388, AFHQ에서 FID 19.8, LPIPS 0.432로 베이스라인을 능가한다.
  • 인간 평가(AMT)에서 StarGAN v2가 CelebA-HQ 및 AFHQ 전반에 걸쳐 이미지 품질과 스타일 반영 모두에서 선호되는 것으로 나타났다.
  • 저자는 다도메인 번역 평가를 용이하게 하기 위해 세 도메인(cat, dog, wildlife)를 가진 15k 이미지의 고품질 동물 얼굴 데이터셋 AFHQ를 공개한다.
Figure 2: Overview of StarGAN v2, consisting of four modules. (a) The generator translates an input image into an output image reflecting the domain-specific style code. (b) The mapping network transforms a latent code into style codes for multiple domains, one of which is randomly selected during t
Figure 2: Overview of StarGAN v2, consisting of four modules. (a) The generator translates an input image into an output image reflecting the domain-specific style code. (b) The mapping network transforms a latent code into style codes for multiple domains, one of which is randomly selected during t

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.