QUICK REVIEW

[논문 리뷰] Scribbler: Controlling Deep Image Synthesis with Sketch and Color

Patsorn Sangkloy, Jingwan Lu|arXiv (Cornell University)|2016. 12. 02.

Generative Adversarial Networks and Image Synthesis참고 문헌 44인용 수 26

한 줄 요약

Scribbler는 희박한 사용자 스케치와 색상 스트로크를 기반으로 고해상도, 다양한, 현실적인 이미지를 생성하는 피드포워드 조건부 GAN을 제안한다. 이는 실시간 상호작용 편집을 가능하게 하며, 기존 연구에 비해 적대적 훈련과 사용자 가이드 스케치 및 색상 제어를 결합하여 얼굴, 자동차, 침실 영역에서 뛰어난 현실감과 제어 가능성 달성한다. 또한 조건부 이미지 색조 조절 기능도 제공한다.

ABSTRACT

Recently, there have been several promising methods to generate realistic imagery from deep convolutional networks. These methods sidestep the traditional computer graphics rendering pipeline and instead generate imagery at the pixel level by learning from large collections of photos (e.g. faces or bedrooms). However, these methods are of limited utility because it is difficult for a user to control what the network produces. In this paper, we propose a deep adversarial image synthesis architecture that is conditioned on sketched boundaries and sparse color strokes to generate realistic cars, bedrooms, or faces. We demonstrate a sketch based image synthesis system which allows users to 'scribble' over the sketch to indicate preferred color for objects. Our network can then generate convincing images that satisfy both the color and the sketch constraints of user. The network is feed-forward which allows users to see the effect of their edits in real time. We compare to recent work on sketch to image synthesis and show that our approach can generate more realistic, more diverse, and more controllable outputs. The architecture is also effective at user-guided colorization of grayscale images.

연구 동기 및 목표

비전문가 사용자가 직관적인 스케치 및 색상 제어를 통해 현실적인 이미지를 생성할 수 있도록 하는 것.
단지 잠재공간 샘플링에 의존하는 기존 딥 이미지 합성 방법에서의 제어 불가능성 문제를 해결하는 것.
사용자 편집 중 실시간 피드백을 제공하는 빠르고 상호작용 가능한 시스템을 개발하는 것.
얼굴 외에도 자동차와 침실을 포함한 다양한 도메인으로 딥 이미지 합성을 확장하여 다양성과 현실감을 향상시키는 것.
희박한 색상 스트로크를 사용한 조건부 이미지 색조 조절의 효과성을 입증하는 것.

제안 방법

입력 스케치와 희박한 색상 스트로크를 조건으로 하여 이미지를 생성하는 조건부 GAN 아키텍처를 훈련한다.
네트워크는 두 단계 훈련 과정을 사용한다: 먼저 VGG-19 특징을 사용하여 내용 손실(픽셀 및 특징 손실)을 최적화하고, 이후 적대적 손실로 정밀 조정한다.
내용 손실은 VGG-19의 ReLU2-2 레이어를 사용하여 세밀한 스케치 디테일을 유지한다.
적대적 훈련은 사진 복원에 대해 높은 가중치(≈1e8)와 색조 조절에 대해 중간 가중치(≈1e5)를 적용하여 현실감과 제어성의 균형을 이룬다.
다양한 스케치 스타일(합성 및 불완전한 수동 스케치 포함)을 사용하여 훈련 데이터를 증강하여 강인성을 향상시킨다.
생성자는 피드포워드 네트워크이므로 실시간 추론과 상호작용 편집이 가능하다.

실험 결과

연구 질문

RQ1딥 생성 모델은 희박한 스케치와 색상 스트로크로부터 현실적이고 다양한, 제어 가능한 이미지를 생성할 수 있는가?
RQ2적대적 훈련은 비적대적 기반 모델 대비 이미지 품질과 현실감을 어떻게 향상시키는가?
RQ3모델은 불완전한 인간 스케치를 포함한 다양한 스케치 스타일로 일반화 가능한가?
RQ4동일한 아키텍처가 스케치에서 이미지 합성과 Grayscale에서 색상 이미지 합성 양쪽 모두를 지원할 수 있는가?
RQ5희귀하거나 비표준 색상 선택에 대한 영향을 최소화하면서도 사용자 제어를 유지할 수 있는가?

주요 결과

제안된 방법은 최적화 기반 추론을 사용하는 기존 스케치에서 이미지로의 합성 방법보다 더 높은 해상도, 더 다양한, 더 현실적인 이미지를 생성한다.
피드포워드 아키텍처는 실시간 사용자 상호작용을 가능하게 하여 스케치 및 색상 편집 중 즉각적인 시각적 피드백을 제공한다.
모델은 불완전한 수동 스케치와 합성 스케치 모두에 잘 일반화되어 입력 변동에 대한 강인성을 보여준다.
시스템은 조건부 이미지 색조 조절을 성공적으로 수행하며, 희박한 색상 스트로크가 네트워크가 의미적으로 타당한 색상 할당을 생성하도록 이끈다.
개선된 성능에도 불구하고, 모델은 종종 물체 경계를 넘어서 색상 번짐을 보이며, 적대적 손실 제약으로 인해 희귀 사용자 지정 색상의 유지가 어려운 경우가 있다.
내용 손실 후 적대적 정밀 조정을 거치는 두 단계 훈련 과정은 더 나은 이미지 품질과 더 빠른 수렴을 이끈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.