QUICK REVIEW

[논문 리뷰] Sketch-to-Image Generation Using Deep Contextual Completion.

Yongyi Lu, Shangzhe Wu|arXiv (Cornell University)|2017. 11. 24.

Generative Adversarial Networks and Image Synthesis참고 문헌 26인용 수 7

한 줄 요약

이 논문은 스케치를 엄격한 에지 가이드가 아니라 약한 경계 제약 조건으로 간주하는 문맥 기반 GAN을 제안하여, 공통된 이미지-스케치 공간에서 이미지 및 스케치 복원을 함께 학습함으로써 열악한 품질의 스케치로부터 더 현실적인 이미지를 생성한다. 이 방법은 세 가지 데이터셋에서 과도한 입력 조건에서도 최신의 조건부 GAN보다 뛰어난 성능을 보이며, 더 높은 현실감과 일반화 능력을 달성한다.

ABSTRACT

In this paper we investigate image generation guided by hand sketch. When the input sketch is badly drawn, the output of common image-to-image translation follows the input edges due to the hard condition imposed by the translation process. Instead, we propose to use sketch as weak constraint, where the output edges do not necessarily follow the input edges. We address this problem using a novel joint image completion approach, where the sketch provides the image context for completing, or generating the output image. We train a generated adversarial network, i.e, contextual GAN to learn the joint distribution of sketch and the corresponding image by using joint images. Our contextual GAN has several advantages. First, the simple joint image representation allows for simple and effective learning of joint distribution in the same image-sketch space, which avoids complicated issues in cross-domain learning. Second, while the output is related to its input overall, the generated features exhibit more freedom in appearance and do not strictly align with the input features as previous conditional GANs do. Third, from the joint image's point of view, image and sketch are of no difference, thus exactly the same deep joint image completion network can be used for image-to-sketch generation. Experiments evaluated on three different datasets show that our contextual GAN can generate more realistic images than state-of-the-art conditional GANs on challenging inputs and generalize well on common categories.

연구 동기 및 목표

기존의 이미지-이미지 번역 모델이 낙관적인 스케치의 경계를 엄격히 따르는 데서 비롯되는 한계를 해결하기 위해.
스케치를 딱딱한 제약 조건이 아닌 문맥적 지침으로 간주함으로써 더 민첩하고 현실적인 이미지 생성을 가능하게 하기 위해.
공통된 이미지-스케치 공간에서 스케치와 이미지 쌍의 공동 분포를 학습하여 이질적 도메인 간 학습을 단순화하기 위해.
동일한 아키텍처를 사용하여 이미지-스케치 및 스케치-이미지 생성을 모두 수행할 수 있는 통합된 딥 네트워크를 개발하기 위해.
노이즈가 많거나 완전하지 않은 스케치 입력 조건에서도 일반적인 이미지 카테고리에 대해 일반화 능력과 현실감을 향상시키기 위해.

제안 방법

이 방법은 공통된 스케치 및 이미지 데이터를 함께 학습하여 공통된 이미지-스케치 공간에서 공동 분포를 학습하는 문맥 기반 GAN을 활용한다.
스케치와 이미지가 동등한 입력으로 간주되는 공동 이미지 표현을 사용하여 양방향에서 대칭적인 생성이 가능해진다.
생성자는 스케치의 맥락 조건에 따라 현실적인 이미지를 생성하기 위해 적대적 학습을 사용하며, 입력 스케치의 경계에서 벗어나도 자유롭게 할 수 있다.
공동 표현에서 작동하는 공유된 깊이 특징 추출기 및 복원 네트워크를 활용하여 누락되거나 모호한 영역을 메운다.
학습 목표는 입력 스케치의 경계뿐만 아니라 전체 맥락과 일치하는 현실적인 출력을 생성하도록 유도한다.
스케치와 이미지를 동일한 모odal로 간주함으로써 복잡한 도메인 간 적응을 피하고 통합된 공간에서 학습한다.

실험 결과

연구 질문

RQ1스케치를 엄격한 에지 템플릿이 아니라 약한 맥락적 제약 조건으로 간주함으로써 스케치-이미지 생성 성능을 향상시킬 수 있는가?
RQ2공통된 공간에서 스케치와 이미지를 함께 학습할 경우 생성된 이미지의 현실감과 다양성에 어떤 영향을 미치는가?
RQ3단일 딥 네트워크가 일관된 성능으로 이미지-스케치 및 스케치-이미지 생성을 모두 수행할 수 있는 정도는 어느 정도인가?
RQ4저품질 또는 완전하지 않은 스케치가 주어졌을 때, 제안된 방법이 조건부 GAN보다 더 잘 일반화되는가?
RQ5입력 스케치의 경계에서 벗어나도 의미적 일관성을 유지하면서 더 현실적인 출력을 생성할 수 있는가?

주요 결과

문맥 기반 GAN은 특히 낙관적인 스케치에서 최신의 조건부 GAN보다 더 현실적인 이미지를 생성한다.
모델은 입력 스케치의 경계에 강하게 묶이지 않고도 외관 생성에 더 큰 자유도를 보이며, 의미적 일관성을 유지한다.
공동 이미지 표현은 복잡한 도메인 간 적응을 제거함으로써 학습을 단순화시켜 더 안정적이고 효과적인 학습을 이끌어낸다.
동일한 딥 네트워크를 사용하여 스케치-이미지 및 이미지-스케치 생성이 가능하여 아키텍처의 대칭성과 유연성을 입증한다.
모델은 스케치 품질과 완전성의 변동에도 불구하고 일반적인 이미지 카테고리에 대해 잘 일반화되어 있어 강건성을 보인다.
세 가지 데이터셋에서의 실험을 통해 기준 조건부 GAN 대비 현실감과 다양성 향상에서 일관된 성능 향상을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.