QUICK REVIEW

[논문 리뷰] Unsupervised Image-to-Image Translation Networks

Ming-Yu Liu, Thomas M. Breuel|arXiv (Cornell University)|2017. 03. 02.

Generative Adversarial Networks and Image Synthesis참고 문헌 36인용 수 517

한 줄 요약

이 논문은 공유 잠재 공간을 활용한 커플된 VAE와 GAN으로 구성된 비지도(무감독) 이미지-이미지 변환 프레임워크 UNIT를 소개한다. 이를 통해 쌍 데이터 없이 두 도메인 간의 변환이 가능하고 도메인 적응 벤치마크에서 최첨단 성과를 달성한다.

ABSTRACT

Unsupervised image-to-image translation aims at learning a joint distribution of images in different domains by using images from the marginal distributions in individual domains. Since there exists an infinite set of joint distributions that can arrive the given marginal distributions, one could infer nothing about the joint distribution from the marginal distributions without additional assumptions. To address the problem, we make a shared-latent space assumption and propose an unsupervised image-to-image translation framework based on Coupled GANs. We compare the proposed framework with competing approaches and present high quality image translation results on various challenging unsupervised image translation tasks, including street scene image translation, animal image translation, and face image translation. We also apply the proposed framework to domain adaptation and achieve state-of-the-art performance on benchmark datasets. Code and additional results are available in https://github.com/mingyuliutw/unit .

연구 동기 및 목표

도메인 주변 분포만 이용 가능한 상황에서 비지도 이미지-이미지 변환의 필요성을 제시한다.
교차 도메인 변환을 위해 두 개의 VAE-GAN을 결합하는 공유 잠재 공간 가정을 제안한다.
적대적 제약과 사이클 일관성 제약을 포함하여 번역 스트림과 재구성 스트림을 공동으로 학습한다.
도시의 거리 풍경, 동물, 얼굴에서 고품질 번역을 보여주고 도메인 적응에 적용한다.

제안 방법

두 개의 인코더 E1, E2, 두 개의 생성기 G1, G2, 그리고 두 개의 판별기 D1, D2를 갖는 여섯 서브네트워크 UNIT 프레임워크를 제안한다.
E1과 E2의 고수준 계층과 G1과 G2의 저수준 계층의 가중치를 공유하여 공유 잠재 공간을 강제한다.
각 도메인을 KL 규제와 z ~ q(z|x)에 의한 재구성을 포함하는 VAE-GAN 목표로 모델링한다.
번역 스트림에 대한 적대적 손실과 공유 잠재 공간 가정에서 도출되는 사이클 일관성 정규화를 사용한다.
미니맥스 학습 스킴에서 VAE 손실, GAN 손실, 사이클 일관성 손실을 함께 최적화한다.
잠재 인코딩을 통해 번역 함수 F1→2(x1)=G2(z1) 및 F2→1(x2)=G1(z2)를 정의한다.

실험 결과

연구 질문

RQ1공유 잠재 공간이 페어링된 데이터 없이 두 이미지 도메인 간의 비지도 변환을 가능하게 할 수 있는가?
RQ2가중치 공유와 적대적 학습이 일관된 교차 도메인 매핑을 만들어내는가?
RQ3사이클 일관성과 공유 잠재 공간 제약이 번역 품질에 어떻게 기여하는가?
RQ4UNIT 프레임워크가 데이터셋 간의 비지도 도메인 적응 성능을 향상시킬 수 있는가?

주요 결과

UNIT 프레임워크는 거리 풍경, 동물, 얼굴에 걸친 고품질의 비지도 교차 도메인 번역을 달성한다.
가중치 공유를 포함한 VAE-GAN의 공동 학습은 공유 잠재 코드의 이를 보장하여 도메인 간에 대응하는 이미지 쌍을 생성한다.
절멸 연구는 가중치 공유와 사이클 일관성 모두가 번역 성능을 향상시키며 전체 모델이 최고 성능을 낸다는 것을 보여준다.
도메인 적응 벤치마크에서 UNIT은 CoGAN 및 DTN과 같은 기존 방법을 여러 작업에서 능가한다.
정성적 결과에는 sunny↔rainy, day↔night, synthetic↔real 번역이 포함되어 현실적인 교차 도메인 변화를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.