QUICK REVIEW

[논문 리뷰] StarGAN v2: Diverse Image Synthesis for Multiple Domains

Yunjey Choi, Youngjung Uh|arXiv (Cornell University)|2019. 12. 04.

Generative Adversarial Networks and Image Synthesis참고 문헌 52인용 수 96

한 줄 요약

StarGAN v2는 도메인별 스타일 코드와 매핑 네트워크 및 스타일 인코더를 통해 학습된 단일 제너레이터로 다수의 도메인에 걸쳐 다양한 이미지를 생성할 수 있으며, CelebA-HQ 및 AFHQ에서 품질과 다양성 측면에서 기존 방법보다 우수합니다.

ABSTRACT

A good image-to-image translation model should learn a mapping between different visual domains while satisfying the following properties: 1) diversity of generated images and 2) scalability over multiple domains. Existing methods address either of the issues, having limited diversity or multiple models for all domains. We propose StarGAN v2, a single framework that tackles both and shows significantly improved results over the baselines. Experiments on CelebA-HQ and a new animal faces dataset (AFHQ) validate our superiority in terms of visual quality, diversity, and scalability. To better assess image-to-image translation models, we release AFHQ, high-quality animal faces with large inter- and intra-domain differences. The code, pretrained models, and dataset can be found at https://github.com/clovaai/stargan-v2.

연구 동기 및 목표

다양한 출력을 생성하는 확장 가능한 다도메인 이미지-투-이미지 번역 프레임워크를 제시한다.
도메인별 스타일 공간을 도입하여 결정론적 매핑을 극복한다.
도메인 스타일 생성 및 추출을 위해 매핑 네트워크와 스타일 인코더를 제안한다.
스타일-일관된 이미지 합성을 보장하면서 소스 도메인 특성을 보존한다.
새로운 고품질 AFHQ 동물 얼굴 데이터셋을 평가를 위해 제공한다.

제안 방법

도메인 라벨을 도메인별 스타일 코드로 대체하여 변환을 구동한다.
잠재 코드로부터 도메인별 스타일을 생성하기 위한 다중 분기 매핑 네트워크를 사용한다.
참조 이미지에서 도메인별 스타일을 추출하기 위해 다중 분기 스타일 인코더를 사용한다.
AdaIN(적응형 인스턴스 정규화)을 통해 제너레이터에 스타일 코드를 주입한다.
적대적 손실, 스타일 재구성 손실, 다양성 규제 손실 및 순환 일관성 손실로 최적화한다.

Figure 1: Diverse image synthesis results on the CelebA-HQ dataset and the newly collected animal faces (AFHQ) dataset. The first column shows input images while the remaining columns are images synthesized by StarGAN v2.

실험 결과

연구 질문

RQ1하나의 제너레이터가 도메인별로 별도의 모델 없이도 여러 도메인에서 다양한 이미지를 생성할 수 있는가?
RQ2도메인별 스타일 공간이 소스 특성을 보존하면서 다도메인 다양화를 가능하게 하는가?
RQ3도메인 스타일의 매핑 및 인코딩이 기존 기준선 대비 잠재 주도 및 참조 가이드 합성을 모두 개선하는가?
RQ4CelebA-HQ를 넘어 새로운 도메인과 데이터셋에 대해 이 접근 방식이 확장 가능한가?
RQ5새로 도입된 다도메인 동물 얼굴 데이터셋(AFHQ)에서 StarGAN v2의 성능은 이전 방법과 비교하여 어떤가?

주요 결과

StarGAN v2는 기준선보다 뛰어난 시각적 품질과 다양성을 CelebA-HQ와 AFHQ에서 달성했으며 정량적 지표와 정성적 결과로 확인됐다.
잠재 주도 합성에서 StarGAN v2는 CelebA-HQ에서 FID 13.7, LPIPS 0.452, AFHQ에서 FID 16.2, LPIPS 0.450를 달성하며 MUNIT, DRIT, MSGAN보다 우수하다.
참조 가이드 합성에서 StarGAN v2는 CelebA-HQ에서 FID 23.8, LPIPS 0.388, AFHQ에서 FID 19.8, LPIPS 0.432로 베이스라인을 능가한다.
인간 평가(AMT)에서 StarGAN v2가 CelebA-HQ 및 AFHQ 전반에 걸쳐 이미지 품질과 스타일 반영 모두에서 선호되는 것으로 나타났다.
저자는 다도메인 번역 평가를 용이하게 하기 위해 세 도메인(cat, dog, wildlife)를 가진 15k 이미지의 고품질 동물 얼굴 데이터셋 AFHQ를 공개한다.

Figure 2: Overview of StarGAN v2, consisting of four modules. (a) The generator translates an input image into an output image reflecting the domain-specific style code. (b) The mapping network transforms a latent code into style codes for multiple domains, one of which is randomly selected during t

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.