[논문 리뷰] DRIT++: Diverse Image-to-Image Translation via Disentangled Representations
DRIT++는 콘텐츠(도메인-불변)와 속성(도메인-특정) 표현을 분리하여 다중모달의 비쌍 이미지-대-이미지 변환을 학습하고, 다양한 현실적인 출력과 다도메인 변환을 가능하게 한다.
Image-to-image translation aims to learn the mapping between two visual domains. There are two main challenges for this task: 1) lack of aligned training pairs and 2) multiple possible outputs from a single input image. In this work, we present an approach based on disentangled representation for generating diverse outputs without paired training images. To synthesize diverse outputs, we propose to embed images onto two spaces: a domain-invariant content space capturing shared information across domains and a domain-specific attribute space. Our model takes the encoded content features extracted from a given input and attribute vectors sampled from the attribute space to synthesize diverse outputs at test time. To handle unpaired training data, we introduce a cross-cycle consistency loss based on disentangled representations. Qualitative results show that our model can generate diverse and realistic images on a wide range of tasks without paired training data. For quantitative evaluations, we measure realism with user study and Fréchet inception distance, and measure diversity with the perceptual distance metric, Jensen-Shannon divergence, and number of statistically-different bins.
연구 동기 및 목표
- 이미지-대-이미지 변환에서 페어링된 학습 데이터의 부족 문제를 해결한다.
- 감독 없이 단일 입력으로 다중모달의 다양하고 다양한 출력을 달성한다.
- 도메인-불변 콘텐츠와 도메인-특정 속성으로 표현을 분리한다.
- 다도메인 이미지-대-이미지 변환으로 확장한다.
- 정규화 및 교차-사이클 제약을 사용하여 현실감을 희생하지 않고 다양성을 향상시킨다.
제안 방법
- 인코더를 사용하여 이미지를 공유 콘텐츠 공간과 도메인-특정 속성 공간에 포함시킨다.
- 콘텐츠 구분자와 가중치 공유를 사용하여 도메인 간에 공유된 콘텐츠 공간을 강제한다.
- 도메인 간 속성 표현을 교체하고 입력을 재구성하여 교차-사이클 일관성 손실을 적용한다.
- 출력 다양성을 높이기 위해 모드-탐색 정규화를 도입한다.
- 단일 제너레이터와 도메인 분류기를 사용하여 다도메인 변환으로 프레임워크를 확장한다.
- 학습된 속성 벡터를 사용한 예시 안내 속성 전이(전이)도 선택적으로 수행한다.
실험 결과
연구 질문
- RQ1분리된 표현을 통해 비쌍 데이터에서 다채롭고 현실적인 I2I 변환을 학습할 수 있는가?
- RQ2콘텐츠와 속성을 분리하는 것이 도메인 간 및 도메인 내에서 다중 모달 출력과 속성 전달을 가능하게 하는가?
- RQ3단일 제너레이터로 다도메인 I2I 변환으로 확장할 수 있는가?
- RQ4콘텐츠 구분자와 모드-탐색 정규화가 현실성과 다양성에 미치는 영향은 무엇인가?
주요 결과
- DRIT++는 여러 비쌍 I2I 작업에서 다양하고 현실적인 변환을 달성한다.
- 교차-사이클 일관성은 분리된 표현으로 대응하지 않는 이미지 쌍으로부터의 신뢰할 수 있는 재구성을 가능하게 한다.
- 모드-탐색 정규화는 다양성을 크게 향상시키고 모드 붕괴를 완화한다.
- 콘텐츠 구분자는 공유 콘텐츠 공간에서 도메인 특유의 누출을 줄이고 도메인 표현을 정렬한다.
- 단일 제너레이터를 사용한 다도메인 변환은 여러 도메인(실제 이미지 및 예술적 스타일, 다양한 날씨)에서 다양한 결과를 생성한다.
- 정량적 지표(FID, LPIPS, JSD, NDB)는 테스트 과제에서 DRIT++가 여러 베이스라인보다 우수함을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.