QUICK REVIEW

[논문 리뷰] FaceShop: Deep Sketch-based Face Image Editing

Tiziano Portenier, Qiyang Hu|arXiv (Cornell University)|2018. 04. 24.

Face recognition and analysis참고 문헌 21인용 수 24

한 줄 요약

FaceShop는 기하학적 요소와 색상에 대한 사용자 드로잉 스토리지로 실시간으로 인터랙티브한 얼굴 이미지 편집을 가능하게 하는 스케치 기반 실시간 얼굴 이미지 편집 시스템을 소개한다. 또한 예시 이미지에서 스마트 복사/붙여넣기를 통해 편집할 수 있다. 이는 새로운 스케치 도메인과 이미지 완성 및 번역 작업을 동시에 수행하도록 엔드 투 엔드로 훈련된 CNN을 사용하여, 후처리 없이도 고품질이고 의미적으로 일관된 결과를 달성한다.

ABSTRACT

We present a novel system for sketch-based face image editing, enabling users to edit images intuitively by sketching a few strokes on a region of interest. Our interface features tools to express a desired image manipulation by providing both geometry and color constraints as user-drawn strokes. As an alternative to the direct user input, our proposed system naturally supports a copy-paste mode, which allows users to edit a given image region by using parts of another exemplar image without the need of hand-drawn sketching at all. The proposed interface runs in real-time and facilitates an interactive and iterative workflow to quickly express the intended edits. Our system is based on a novel sketch domain and a convolutional neural network trained end-to-end to automatically learn to render image regions corresponding to the input strokes. To achieve high quality and semantically consistent results we train our neural network on two simultaneous tasks, namely image completion and image translation. To the best of our knowledge, we are the first to combine these two tasks in a unified framework for interactive image editing. Our results show that the proposed sketch domain, network architecture, and training procedure generalize well to real user input and enable high quality synthesis results without additional post-processing.

연구 동기 및 목표

비전문가 사용자를 대상으로 한 국소적 얼굴 이미지 편집을 위한 직관적인 도구 부족 문제를 해결하기 위해.
형태와 색상에 대한 간단한 사용자 드로잉 스토리지로 세밀한 제어를 가능하게 하기 위해.
수동 그림 그리기 없이도 스케치 기반 편집과 예시 이미지에서의 스마트 복사/붙여넣기를 모두 지원하기 위해.
실제 사용자 입력에 잘 일반화되고, 아티팩트가 없는 고해상도 결과를 생성하는 딥러닝 프레임워크 개발하기 위해.
이미지 완성과 이미지 번역을 하나의 엔드 투 엔드 훈련 프레임워크로 통합하여 일관성과 품질 향상시키기 위해.

제안 방법

시스템은 사용자가 그린 기하학적 요소와 색상 제약 조건을 입력으로 사용하는 새로운 스케치 도메인을 사용한다.
합성곱 신경망이 두 가지 동시 작업인 이미지 완성과 이미지 번역에 대해 엔드 투 엔드로 훈련된다.
생성망 네트워크는 입력 스케치와 주변 맥락을 바탕으로 이미지 영역을 합성하고, 구분망은 현실성과 일관성을 보장한다.
훈련 데이터는 CelebA 데이터셋의 실제 얼굴 이미지에 스케치 스토리지와 색상 오버레이를 시뮬레이션하여 자동으로 구성된다.
인터페이스는 실시간 상호작용과 반복 편집을 지원하며, 강력한 블렌딩 기능을 갖춘 스마트 복사/붙여넣기 모드를 제공한다.
손실 함수는 구조적 세부 정보와 의미 일관성을 유지하도록 설계되어 아티팩트를 최소화하고 텍스처 품질을 향상시킨다.

실험 결과

연구 질문

RQ1최소한의 사용자 입력으로도 스케치 기반 인터페이스가 직관적이고 정밀한 국소적 얼굴 이미지 편집을 가능하게 할 수 있는가?
RQ2이미지 완성과 이미지 번역을 함께 훈련하여 국소 편집에서 의미 일관성과 현실감을 향상시킬 수 있는가?
RQ3라벨이 없는 데이터나 사전 지식 없이도 딥러닝 모델이 실제 불완전한 사용자 스케치에 잘 일반화될 수 있는가?
RQ4기존의 '번역-편집' 접근 방식과 비교해 본다면, 제안된 방법은 아티팩트 감소와 세부 정보 보존 측면에서 어떻게 성능을 내는가?
RQ5헤어스타일 변경이나 일관성 없는 레이아웃 제안과 같은 복잡한 편집을 시스템이 어느 정도 처리할 수 있는가?

주요 결과

제안된 시스템은 최소한의 사용자 입력으로 고품질이고 현실적인 얼굴 이미지 편집 결과를 달성하며, 날카운 텍스처와 낮은 아티팩트를 제공한다.
이미지 완성과 번역을 함께 훈련함으로써 단독 이미지 번역 또는 '번역-편집' 파이프라인보다 더 일관되고 세밀한 결과를 도출한다.
스마트 복사/붙여넣기 모드는 조명, 텍스처, 자세의 변화가 있는 상황에서도 얼굴 구성 요소를 성공적으로 이식한다.
시스템은 어느 정도 높은 해상도로 일반화되지만, 훈련 스케일을 초월할 경우 성능 저하가 심각하게 발생한다.
실패 사례로는 의미적으로 일관성 없는 레이아웃(예: 눈이 이마 위에 있는 경우)과 헤어스타일 완전 교체가 있으며, 이는 훈련 데이터에 이러한 패턴이 없기 때문이다.
pix2pix와 같은 베이스라인 접근 방식에 비해 특히 국소 편집 시나리오에서 텍스처 세부 정보와 아티팩트 감소 측면에서 성능이 뛰어나다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.