QUICK REVIEW

[논문 리뷰] Unsupervised Image-to-Image Translation with Generative Adversarial Networks

Hao Dong, Paarth Neekhara|arXiv (Cornell University)|2017. 01. 10.

Generative Adversarial Networks and Image Synthesis참고 문헌 18인용 수 70

한 줄 요약

이 논문은 조건부 GAN과 이미지 인코더를 사용한 두 단계의 비지도 방법으로 도메인 간 이미지를 양방향으로 도메인에 구애받지 않는 방식으로 번역한다.

ABSTRACT

It's useful to automatically transform an image from its original form to some synthetic form (style, partial contents, etc.), while keeping the original structure or semantics. We define this requirement as the "image-to-image translation" problem, and propose a general approach to achieve it, based on deep convolutional and conditional generative adversarial networks (GANs), which has gained a phenomenal success to learn mapping images from noise input since 2014. In this work, we develop a two step (unsupervised) learning method to translate images between different domains by using unlabeled images without specifying any correspondence between them, so that to avoid the cost of acquiring labeled data. Compared with prior works, we demonstrated the capacity of generality in our model, by which variance of translations can be conduct by a single type of model. Such capability is desirable in applications like bidirectional translation

연구 동기 및 목표

도메인 간 이미지를 페어 데이터 없이 번역하되 의미와 구조를 보존하는 것을 목표로 한다.
하나의 모델로 여러 도메인 번역을 처리할 수 있는 보편 매핑을 학습한다.
공유 잠재 특징을 활용하여 도메인 간 양방향 번역이 가능하도록 한다.

제안 방법

auxiliary classifier GAN을 사용하여 도메인 간 전역 공유 특징을 학습하고 이를 [-1, 1]의 잠재 z로 표현한다.
도메인 레이블과 잠재 z에 조건화된 대상 도메인 이미지를 생성하는 조건부 생성기를 학습한다.
실제 이미지를 잠재 공간 z로 매핑하는 이미지 인코더 E를 도입하고, 생성기를 통해 z를 재구성하도록 하여 MSE 손실을 통해 학습한다.
입력 이미지를 z로 매핑한 다음 원하는 레이블로 조건화된 대상 도메인 이미지를 생성하여 번역을 수행한다.
훈련은 두 단계로 수행된다: 1단계에서 G를 모든 도메인에서 학습; 2단계에서 제너레이터를 고정한 채 모든 도메인에서 E를 학습.

실험 결과

연구 질문

RQ1잠재 표현을 공유하는 비지도 학습이 여러 이미지 도메인 간의 양방향 번역을 가능하게 하는가?
RQ2두 단계 프레임워크(생성기 학습 후 인코더 학습)가 엔드투엔드 접근법보다 재구성 및 번역 품질을 개선하는가?
RQ3보편적 학습 접근이 단일 모델로 다양한 번역 작업(예: 성별, 얼굴 속성)을 처리할 수 있는가?

주요 결과

CelebA에서 성별 변환에 대한 양방향 번역을 시연했고 대통령 선거 토론 영상에서 얼굴 교환을 수행하였다.
본 방법은 배경과 표정을 보존하며 의미적 보존이 효과적으로 이뤄짐을 학습한다.
두 단계 학습은 학습된 생성기로부터 합성 데이터를 활용하여 이미지 인코더를 학습하므로 데이터 효율성과 표현 능력이 증가한다.
번역은 인코더를 적용해 z를 얻은 뒤 조건부 생성을 이용해 대상 도메인 이미지를 합성하는 방식으로 이뤄진다.
이 접근법은 단일 모델로 다도메인 학습을 지원하여 학습 알고리즘의 보편성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.