QUICK REVIEW

[논문 리뷰] Exemplar Guided Unsupervised Image-to-Image Translation with Semantic Consistency

Liqian Ma, Xu Jia|arXiv (Cornell University)|2018. 05. 28.

Generative Adversarial Networks and Image Synthesis인용 수 59

한 줄 요약

EGSC-IT는 특징 마스크를 사용한 의미론적 일관성과 스타일 전이를 위한 AdaIN으로, 다양하면서도 의미적으로 일관된 이미지-대-이미지 번역을 비감독 학습으로 가능하게 한다.

ABSTRACT

Image-to-image translation has recently received significant attention due to advances in deep learning. Most works focus on learning either a one-to-one mapping in an unsupervised way or a many-to-many mapping in a supervised way. However, a more practical setting is many-to-many mapping in an unsupervised way, which is harder due to the lack of supervision and the complex inner- and cross-domain variations. To alleviate these issues, we propose the Exemplar Guided & Semantically Consistent Image-to-image Translation (EGSC-IT) network which conditions the translation process on an exemplar image in the target domain. We assume that an image comprises of a content component which is shared across domains, and a style component specific to each domain. Under the guidance of an exemplar from the target domain we apply Adaptive Instance Normalization to the shared content component, which allows us to transfer the style information of the target domain to the source domain. To avoid semantic inconsistencies during translation that naturally appear due to the large inner- and cross-domain variations, we introduce the concept of feature masks that provide coarse semantic guidance without requiring the use of any semantic labels. Experimental results on various datasets show that EGSC-IT does not only translate the source image to diverse instances in the target domain, but also preserves the semantic consistency during the process.

연구 동기 및 목표

쌍으로 매칭된 데이터 없이 다모달 이미지-대-이미지 번역을 동기 부여한다.
콘텐츠 의미를 보존하면서 대상 도메인 스타일을 전달하기 위한 예시-가이드 프레임워크를 개발한다.
의미 라벨 없이 거친 의미 지도를 제공하는 특징 마스크를 도입한다.
공유 콘텐츠 표현에 대상 도메인 스타일을 주입하기 위해 AdaIN을 활용한다.
모드 캡처(mode collapse)에 대한 강건성을 입증하고 데이터셋 간 의미 일관성을 평가한다.

제안 방법

이미지를 도메인 공통의 콘텐츠 구성요소와 도메인 특유의 스타일 구성요소로 분해한다.
도메인 간 콘텐츠를 위한 공통 잠재 공간을 학습하기 위해 가중치를 공유한다( UNIT에서 영감을 받음).
대상 도메인 예시에서 AdaIN 선형 매개변수를 계산하여 공유 콘텐츠에 스타일을 AdaIN으로 전이한다.
의미적 영역을 스펙트랄하게 분리하고 레이블 없이도 의미 일관성을 보존하기 위해 특징 마스크 m_A와 m_B를 도입한다.
지각 손실(콘텐츠 및 스타일)과 GAN/사이클 손실을 적용하여 VAE-GAN 프레임워크를 학습한다.
특징 마스크와 AdaIN 네트워크를 먼저 예비 학습하고, 이후 다중 손실 항으로의 공동 최적화를 통해 네트워크를 단계적으로 학습한다.

실험 결과

연구 질문

RQ1대상 도메인의 예시가 레퍼런스 없이도 다양하고 스타일 제어가 가능한 출력으로 이어지는 비감독 I2I 번역을 이끌 수 있는가?
RQ2특징 마스크가 그라운드 트룻 의미 라벨 없이도 의미 일관성 있는 번역을 가능하게 하는가?
RQ3의미 구조를 보존하면서 비감독 설정에서 다모달 번역이 가능한가?
RQ4예시-가이드 AdaIN 접근법이 다양성 및 의미 보존 측면에서 기존의 비감독 I2I 방법들과 비교해 어떤 차이를 보이는가?

주요 결과

EGSC-IT는 예시로 조건화된 다모달 번역을 산출하여 대상 도메인 스타일로의 전이를 가능하게 한다.
특징 마스크는 AdaIN 기반 스타일 전이 동안 의미 영역을 대략 분리함으로써 의미 일관성을 유지하는 데 도움을 준다.
아블레이션 결과 AdaIN이 모드 캡처를 감소시키고 지각 손실이 의미 충실도를 향상시키는 반면, 특징 마스크 또는 AdaIN 제거 시 결과가 저하된다.
MNIST 기반 작업에서 EGSC-IT는 CycleGAN, UNIT, MUNIT 및 마스크/AdaIN/지각 손실이 없는 변형들보다 더 높은 SSIM을 달성한다.
거리뷰 번역(GTA5에서 BDD)에서 변환된 이미지는 다운스트림 의미 분할 성능(mIoU가 기준치에 대해 보고됨)을 향상시킨다.
정성적으로, EGSC-IT는 baselines보다 대규모 도메인 변화(예: 주간/야간)에서 더 나은 의미 일관성 있는 스타일 전이를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.