QUICK REVIEW

[논문 리뷰] SC-FEGAN: Face Editing Generative Adversarial Network with User's Sketch and Color

Youngjoo Jo, Jongyoul Park|arXiv (Cornell University)|2019. 02. 18.

Generative Adversarial Networks and Image Synthesis참고 문헌 14인용 수 38

한 줄 요약

SC-FEGAN은 자유형 마스크, 스케치, 색상 입력을 이용하여 얼굴을 편집하는 엔드투엔드 학습 가능한 GAN 시스템을 제시하며, 큰 영역이 제거된 경우에도 고품질의 결과를 만들어냅니다. 이는 게이트 컨볼루션을 가진 U-Net 스타일의 생성기와 SN-PatchGAN 판별기를 사용하고, 스타일 손실과 지각 손실로 향상됩니다.

ABSTRACT

We present a novel image editing system that generates images as the user provides free-form mask, sketch and color as an input. Our system consist of a end-to-end trainable convolutional network. Contrary to the existing methods, our system wholly utilizes free-form user input with color and shape. This allows the system to respond to the user's sketch and color input, using it as a guideline to generate an image. In our particular work, we trained network with additional style loss which made it possible to generate realistic results, despite large portions of the image being removed. Our proposed network architecture SC-FEGAN is well suited to generate high quality synthetic image using intuitive user inputs.

연구 동기 및 목표

대화형 얼굴 편집 도구를 동기화하고 자유-form 입력(마스크, 스케치, 색상)을 지원한다.
512x512 얼굴 이미지에서 고품질 인페인팅 및 편집이 가능한 엔드투엔드 학습 네트워크를 개발한다.
사용자 가이드와 특수한 손실을 활용하여 얼굴의 큰 부분이 지워져도 현실적인 복원을 가능하게 한다.

제안 방법

마스크된 영역을 처리하기 위해 U-Net 아키텍처와 게이트 컨볼루션을 갖춘 완전 합성곱 생성기를 사용한다.
판별기로서 SN-PatchGAN을 도입하고 안정적인 학습을 위해 그래디언트 패널티를 적용한다.
픽셀 단위, 지각, 스타일, 전체 변동, GAN 손실을 결합한 합성 손실로 학습한다.
입력 채널을 불완전한 이미지, 마스크, 스케치, 색상 맵, 잡음을 포함하도록 확장한다.
자유-form 마스크, 눈 기반 마스크, 색상/스케치 도메인에서 파생된 CelebA-HQ를 사용한 학습 데이터를 생성한다.
합성곱 후 LRN을 적용하고 생성기 출력에 tanh 활성화를 사용한다.

실험 결과

연구 질문

RQ1자유-form 마스크, 스케치, 색상 입력이 GAN을 안내하여 머리카락과 액세서리를 포함한 얼굴 영역을 현실적으로 편집하거나 복구할 수 있는가?
RQ2스타일 손실과 지각 손실이 대형 지워진 영역에 대해 순수 GAN 기반 인페인팅보다 현실감과 경계 품질을 향상시키는가?
RQ3게이트 컨볼루션을 갖춘 SN-PatchGAN이 인터랙티브 얼굴 편집에서 안정적인 학습과 고품질 출력을 가능하게 하는가?
RQ4SC-FEGAN이 대형 영역의 지워짐과 사용자 주도 편집 처리 측면에서 이전 방법(예: DeepFill 변형, FaceShop)과 어떻게 비교되는가?
RQ5헤어와 같이 얼굴의 전체 영역이 지워지고 스케치/색상 가이드만 제공될 때 시스템이 그럴듯한 편집을 생성할 수 있는가?

주요 결과

제안된 SC-FEGAN은 질적 비교에서 거친-정제 또는 U-Net 기본 모델보다 더 높은 품질의 더 현실적인 편집을 생성한다.
VGG 기반의 지각 및 스타일 손실로 학습하면 특히 큰 지워진 영역에서 결과가 향상된다.
그래디언트 패널티를 갖춘 SN-PatchGAN 판별기가 학습을 안정화하고 마스크 경계에서 엣지를 선명하게 만든다.
자유-form 스케치와 색상 입력을 사용하여 얼굴 형태, 헤어스타일, 눈 색상, 귀걸이와 같은 액세서리를 대형 지워짐이 있어도 편집할 수 있다.
CelebA-HQ에서 모델은 512x512 이미지에 대해 빠른 추론 속도(대략 44 ms GPU에서)를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.