QUICK REVIEW

[논문 리뷰] Landmark Assisted CycleGAN for Cartoon Face Generation

Ruizheng Wu, Xiaodong Gu|arXiv (Cornell University)|2019. 07. 02.

Generative Adversarial Networks and Image Synthesis참고 문헌 38인용 수 29

한 줄 요약

이 논문은 실사 얼굴과 만화 얼굴 도메인 간의 구조적 일致성을 확보하기 위해 얼굴 랜드마크를 활용하는 새로운 이미지 간 번역 프레임워크인 Landmark Assisted CycleGAN을 제안한다. 비페어드 훈련 데이터를 사용하여, 랜드마크 일致성 손실과 랜드마크에 의해 안내되는 국소/전반적 판별기들을 도입함으로써, 신뢰도 높은 만화 얼굴을 생성하여 신원과 얼굴 구조를 유지한다. 이는 만화 얼굴에서 Fréchet Inception Distance(FID) 1988.50을 달성하며, 기준 성능을 초월하며 신원과 현실감에 있어 뛰어난 사용자 선호도를 보였다.

ABSTRACT

In this paper, we are interested in generating an cartoon face of a person by using unpaired training data between real faces and cartoon ones. A major challenge of this task is that the structures of real and cartoon faces are in two different domains, whose appearance differs greatly from each other. Without explicit correspondence, it is difficult to generate a high quality cartoon face that captures the essential facial features of a person. In order to solve this problem, we propose landmark assisted CycleGAN, which utilizes face landmarks to define landmark consistency loss and to guide the training of local discriminator in CycleGAN. To enforce structural consistency in landmarks, we utilize the conditional generator and discriminator. Our approach is capable to generate high-quality cartoon faces even indistinguishable from those drawn by artists and largely improves state-of-the-art.

연구 동기 및 목표

훈련 데이터가 비페어드이고 도메인 간 기하학적 구조가 크게 다를 때 실사 얼굴에서 고품질 만화 얼굴을 생성하는 데 도전하는 것.
표준 CycleGAN에서 발생하는 구조적 왜곡을 얼굴 랜드마크를 통한 명시적 공간 제약 조건을 도입하여 극복하는 것.
페어드 실-만화 이미지 데이터가 필요 없이도 신원 유지와 시각적 타당성을 향상시키는 것.
17,920장의 애니메이션 스타일 및 2,125장의 비트모지 스타일 이미지로 구성된 새로운 대규모 데이터셋을 구축하여, 훈련 및 평가를 위한 얼굴 랜드마크 주석을 제공하는 것.

제안 방법

실사 및 생성된 만화 얼굴의 얼굴 랜드마크 간 기하학적 대응을 강제하는 랜드마크 일치 손실을 도입한다.
이미지와 랜드마크 입력을 동시에 사용하는 조건부 생성기 및 판별기를 활용하여 번역 과정에서의 구조적 정렬을 향상시킨다.
전반적인 얼굴 구조 일치를 도메인 간 보장하기 위해 랜드마크를 활용하는 전반적 판별기를 설계한다.
랜드마크 위치에 의해 안내되는 핵심 얼굴 영역(눈, 코, 입)에 집중된 국소 판별기를 도입하여 세부 사항의 정확도를 향상시킨다.
사이클 일관성 손실을 보완하는 랜드마크 기반 감독을 통합한 CycleGAN 프레임워크를 사용하여 훈련 안정성과 잡음 감소를 도모한다.
페어드 이미지 정렬 없이도 감독 가능하도록, 새로운 데이터셋에서 실사 및 만화 이미지의 얼굴 랜드마크를 주석 처리한다.

실험 결과

연구 질문

RQ1얼굴 랜드마크가 실사와 만화 얼굴 간 비페어드 이미지 간 번역에서 구조적 불일치를 효과적으로 줄일 수 있는가?
RQ2표준 CycleGAN에 비해 랜드마크에 기반한 감독이 만화 얼굴 생성의 신원 유지와 시각적 품질에 어떻게 기여하는가?
RQ3랜드마크로 정의된 영역에 집중된 국소 판별기가 생성된 만화 얼굴의 현실감을 어느 정도 향상시키는가?
RQ4랜드마크 일치 손실이 기하학적 잡음과 사이클 일관성 향상에 미치는 영향은 어떠한가?
RQ5제안된 방법은 비페어드 만화 얼굴 생성 분야에서 최신 기술과 정량적·정성적으로 비교해 볼 때 어떻게 성능을 내는가?

주요 결과

제안된 방법은 애니메이션 얼굴 데이터셋에서 Fréchet Inception Distance(FID) 1988.50을 달성하여, CycleGAN(2398.16)과 MUNIT(2749.46)를 모두 앞서며 실제 만화 얼굴과의 분포 유사도가 뛰어나다는 것을 보여준다.
사용자 연구에서 비트모지 스타일 얼굴에서 신원 유지 및 전반적 품질에 대해 최고의 상위 1위 및 상위 3위 선호도 비율(77% 및 42%)을 기록했다.
제거 실험 결과 국소 판별기를 제거할 경우 FID가 1993.83으로 상승하여, 이는 시각적 품질 향상에 기여한다는 것을 확인한다.
랜드마크 일치 손실은 페어드 훈련 데이터 없이도 구조적 잡음과 얼굴 기능 정렬을 크게 개선함으로써, 효과적인 기여를 한다.
제안된 방법은 예술가가 그린 이미지와 시각적으로 구분되지 않으며, 정량적 지표와 사용자 선호도 모두에서 기존 방법을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.