QUICK REVIEW

[논문 리뷰] SketchyGAN: Towards Diverse and Realistic Sketch to Image Synthesis

Wengling Chen, James Hays|arXiv (Cornell University)|2018. 01. 09.

Generative Adversarial Networks and Image Synthesis참고 문헌 47인용 수 39

한 줄 요약

SketchyGAN은 50개의 물체 카테고리에 걸쳐 인간이 그린 스케치에서 실제적인, 다양한 이미지를 생성하는 GAN 기반의 엔드 투 엔드 훈련 가능한 모델을 제안한다. 이는 향상된 특징 흐름을 위한 새로운 마스크된 잔차 블록(MRU)과 합성 에지 맵을 이용한 데이터 증강 기법을 도입하여 이전 방법들보다 높은 Inception 스코어와 더 높은 현실감을 달성한다.

ABSTRACT

Synthesizing realistic images from human drawn sketches is a challenging problem in computer graphics and vision. Existing approaches either need exact edge maps, or rely on retrieval of existing photographs. In this work, we propose a novel Generative Adversarial Network (GAN) approach that synthesizes plausible images from 50 categories including motorcycles, horses and couches. We demonstrate a data augmentation technique for sketches which is fully automatic, and we show that the augmented data is helpful to our task. We introduce a new network building block suitable for both the generator and discriminator which improves the information flow by injecting the input image at multiple scales. Compared to state-of-the-art image translation methods, our approach generates more realistic images and achieves significantly higher Inception Scores.

연구 동기 및 목표

이미지 검색에 의존하지 않고 인간이 그린 스케치에서 실제적이고 다양한 이미지를 합성하는 딥러닝 모델을 개발하는 것.
쌍체의 스케치-사진 훈련 데이터 부족 문제를 해결하기 위해 합성 에지 맵을 이용한 데이터 증강 기법을 도입하는 것.
다양한 스케일 간의 정보 흐름을 향상시키기 위해 새로운 네트워크 아키텍처(MRU)를 설계하여 이미지 합성 품질을 향상시키는 것.
입력 스케치에 대한 충실도와 사진처럼 자연스러운 품질 사이의 균형을 맞추며, 자연스러운 이미지 품질을 위해 필요한 편차를 허용하는 것.
50개의 다양한 물체 카테고리에 걸쳐 스케치-이미지 합성 분야에서 최신 기술 수준의 성능을 입증하는 것.

제안 방법

모델은 조건부 GAN 프레임워크를 사용하며, 생성자는 스케치를 입력으로 받아 실제적인 이미지를 생성하고, 판별자는 진짜 이미지와 생성된 이미지를 구분한다.
내부 마스크를 사용하여 정보 흐름을 동적으로 제어하고 입력 스케치의 다중 스케일 특징을 주입하는 새로운 마스크된 잔차 블록(MRU)을 도입한다.
훈련 과정에서 에지 맵 기반 합성에서 스케치 기반 합성으로 점진적으로 전환하기 위해 훈련 중에 에지 맵 쌍과 스케치 쌍의 비율을 조절한다.
이미지 품질과 다양성을 향상시키기 위해 GAN 손실 및 ACGAN 손실과 같은 추가 손실 함수를 사용한다.
230만 장의 Flickr 이미지에서 50개 카테고리에 걸쳐 합성된 에지 맵을 이용해 데이터 증강을 수행하며, 스케치 데이터셋에 쌍체의 에지 맵과 사진을 추가한다.
모델은 적대적 손실, 인지적 손실, 신원 손실의 조합을 사용하여 엔드 투 엔드로 훈련되며, 구조적 일致성과 현실감을 유지한다.

실험 결과

연구 질문

RQ1이미지 검색에 의존하지 않고 GAN 기반 모델이 스케치에서 다양하고 현실적인 이미지를 생성할 수 있는가?
RQ2제한된 쌍체의 스케치-사진 데이터를 효과적으로 증강하여 스케치-이미지 합성 성능을 향상시킬 수 있는가?
RQ3마스크된 잔차 블록(MRU)과 같은 새로운 네트워크 아키텍처가 스케치-이미지 번역에서 특징 흐름과 합성 품질을 향상시키는가?
RQ4생성된 출력에서 입력 스케치에 대한 충실도와 현실감 사이의 균형을 어느 정도 유지할 수 있는가?
RQ5기존의 GAN 기반 및 검색 기반 스케치-이미지 합성 접근법과 비교하여 제안된 방법이 정량적·정성적으로 어떻게 성능을 냈는가?

주요 결과

SketchyGAN은 최신 기술 수준의 이미지 번역 방법들보다 유의미하게 높은 Inception 스코어를 달성하여 이미지 품질과 다양성 향상을 시사한다.
MRU 기반 모델은 파rameter 수가 유사한 ResNet 및 CRN 변종보다 시각적 품질과 Inception 스코어에서 뛰어난 성능을 보였다.
인간 평가 결과, SketchyGAN은 pix2pix 변종보다 더 현실적인 것으로 평가되었으며, 현실감 비교에서 더 높은 선택률을 보였다.
SketchyGAN은 검색 기반 베이스라인보다 입력 스케치에 더 충실했지만, 입력 에지를 더 정확히 유지하는 pix2pix보다는 덜 충실했다.
동일한 입력 스케치에 대해 다양한 출력을 생성하며, 입력당 여러 개의 다채로운 실제적인 이미지를 생성하는 것으로 입증되었다.
합성 에지 맵을 이용한 데이터 증강 기법은 특히 데이터가 적은 환경에서 모델의 일반화 능력과 성능 향상에 기여했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.