QUICK REVIEW

[논문 리뷰] GeneGAN: Learning Object Transfiguration and Attribute Subspace from Unpaired Data

Shuchang Zhou, Taihong Xiao|arXiv (Cornell University)|2017. 05. 14.

Generative Adversarial Networks and Image Synthesis참고 문헌 22인용 수 49

한 줄 요약

GeneGAN은 쌍이 맞지 않는, 약한 레이블이 부여된 데이터에서 분리된 개체 속성 부분공간을 학습하는 결정론적 생성 모델을 제안한다. 이 모델은 안경이나 미소와 같은 속성의 유무를 나타내는 0/1 레이블만을 사용한다. 적대적 훈련과 순환 재구성 기법을 활용하여, 쌍이 맞는 이미지나 명시적인 개체 세분화 없이도 정밀한 개체 변형을 가능하게 한다. 예를 들어 얼굴 간 안경을 교환하는 등의 작업이 가능하다.

ABSTRACT

Object Transfiguration replaces an object in an image with another object from a second image. For example it can perform tasks like "putting exactly those eyeglasses from image A on the nose of the person in image B". Usage of exemplar images allows more precise specification of desired modifications and improves the diversity of conditional image generation. However, previous methods that rely on feature space operations, require paired data and/or appearance models for training or disentangling objects from background. In this work, we propose a model that can learn object transfiguration from two unpaired sets of images: one set containing images that "have" that kind of object, and the other set being the opposite, with the mild constraint that the objects be located approximately at the same place. For example, the training data can be one set of reference face images that have eyeglasses, and another set of images that have not, both of which spatially aligned by face landmarks. Despite the weak 0/1 labels, our model can learn an "eyeglasses" subspace that contain multiple representatives of different types of glasses. Consequently, we can perform fine-grained control of generated images, like swapping the glasses in two images by swapping the projected components in the "eyeglasses" subspace, to create novel images of people wearing eyeglasses. Overall, our deterministic generative model learns disentangled attribute subspaces from weakly labeled data by adversarial training. Experiments on CelebA and Multi-PIE datasets validate the effectiveness of the proposed model on real world data, in generating images with specified eyeglasses, smiling, hair styles, and lighting conditions etc. The code is available online.

연구 동기 및 목표

쌍이 맞는 훈련 데이터나 명시적인 개체 세분화 없이도 개체 변형 문제를 해결한다.
예시 이미지를 사용해 안경이나 표정과 같은 원하는 속성을 제어할 수 있는 세밀한 이미지 생성을 가능하게 한다.
0/1 레이블을 사용한 약한 감독 데이터에서 분리된 속성 부분공간을 학습하여 다양한 현실적인 이미지 편집을 지원한다.
역행 가능성이 없는 매핑이 필요 없이도 안정적인 훈련을 가능하게 하는 대칭적이고 안정적인 훈련 프레임워크를 개발한다.

제안 방법

배경 특징와 개체 특징를 분리하는 인코더-디코더 아키텍처를 갖춘 조건부 생성 모델을 훈련한다.
실제 이미지 재구성과 생성을 보장하기 위해 적대적 훈련을 사용하고, 훈련 안정성을 높이기 위해 순환 일致성 손실을 적용한다.
예를 들어 얼굴 랜드마크와 같은 공간적 정렬을 활용하여, 속성이 있는 데이터셋(예: 안경이 있는 경우)과 없는 데이터셋(예: 안경이 없는 경우) 간의 이미지를 정렬한다.
객체 특징를 학습된 속성 부분공간에 투영하여, 이미지 간 속성의 보간, 확대, 교환을 지원한다.
디코더 내 객체 특징 벡터를 배경 특징를 유지한 채로 교체함으로써 객체 변형을 가능하게 한다.
선형 특징 공간 가정을 활용하여 잠재 공간에서 특징 덧셈이나 교환과 같은 연산을 수행함으로써 자연스러운 편집을 구현한다.

실험 결과

연구 질문

RQ1쌍이 맞지 않는, 약한 레이블이 부여된 데이터에서 쌍이 맞는 이미지나 명시적인 세분화 없이도 분리된 속성 부분공간을 학습할 수 있는가?
RQ2속성 존재 여부를 나타내는 0/1 레이블만으로도 대칭적 훈련 목표를 사용해 객체 변형을 달성할 수 있는가?
RQ3모델은 새로운 데이터에 일반화되어 있으며, 개인 간으로도 현실적인 속성 교환(예: 안경, 헤어스타일, 조명)을 수행할 수 있는가?
RQ4학습된 속성 부분공간은 잡음 없이 의미 있는 보간과 속성 조작을 지원하는가?
RQ5순환 손실이 있는 GAN과 비교했을 때 재구성 품질과 속성 일관성 측면에서 모델 성능은 어떠한가?

주요 결과

GeneGAN은 쌍이 맞는 예시 없이도 쌍이 맞지 않는 데이터에서 '안경' 속성 부분공간을 성공적으로 학습하여 얼굴 간 정밀한 안경 교환을 가능하게 했다.
모델은 Wider Face 데이터셋에서 더 제약이 적은 환경에서도 잘 일반화되어 있으며, 현실적인 편집 결과를 도출함으로써 성능을 입증했다.
학습된 속성 부분공간 내 보간은 다양한 헤어스타일과 얼굴 속성 간 자연스러운 전환을 생성하여 분리성의 성립을 확인했다.
DiscoGAN에 비해 재구성 일관성과 속성 충실도 측면에서 GeneGAN이 뛰어나며, 잡음이 최소화되고 정체성 및 배경 유지가 더 잘 이루어졌다.
순환 재구성 손실은 훈련 안정성을 향상시키고, 원천 및 목적 도메인이 서로 다른 내재 차원을 가질 경우에도 대칭적 학습을 가능하게 했다.
특징 교환을 통한 객체 변형은 고해상도이고 현실적인 이미지를 생성하였으며, 결과적으로 원본 속성 스타일(예: 헤어 방향, 미소 강도)과 강하게 일치하는 경향을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.