QUICK REVIEW

[논문 리뷰] A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation

Alexander H. Liu, Yen‐Cheng Liu|arXiv (Cornell University)|2018. 09. 05.

Digital Media Forensic Detection인용 수 107

한 줄 요약

논문은 다중 도메인 간의 도메인 불변 잠재 표현을 학습하는 Unified Encoder–Generator 프레임워크인 UFDN을 소개하여 다중 도메인 이미지 번역, 조작 및 비지도 도메인 적대을 가능하게 한다.

ABSTRACT

We present a novel and unified deep learning framework which is capable of learning domain-invariant representation from data across multiple domains. Realized by adversarial training with additional ability to exploit domain-specific information, the proposed network is able to perform continuous cross-domain image translation and manipulation, and produces desirable output images accordingly. In addition, the resulting feature representation exhibits superior performance of unsupervised domain adaptation, which also verifies the effectiveness of the proposed model in learning disentangled features for describing cross-domain data.

연구 동기 및 목표

여러 데이터 도메인에 걸쳐 분리된 도메인 불변 표현을 학습하도록 동기를 부여한다.
단일 통합 프레임워크 내에서 다중 도메인 이미지 간 번역 및 조작을 가능하게 한다.
도메인 정보를 분리하면서 데이터 복구를 유지하기 위해 적대적 학습을 활용한다.
학습된 표현의 비지도 도메인 적응에 대한 효과를 보여준다.

제안 방법

공유 인코더 E와 제너레이터 G를 가진 Unified Feature Disentanglement Network(UFDN)를 제안하여 여러 도메인의 이미지를 도메인 불변 잠재 공간 z로 매핑한다.
도메인 구분기 D_v를 통해 도메인 정보를 도메인 벡터 v로 분리하고, E에 대항적으로 학습시켜 분리한다.
z와 도메인 벡터를 함께 G에 입력하여 재구성 및 번역을 수행하고 교차 도메인 합성을 가능하게 한다.
이미지 공간 구분기 D_x를 사용하여 현실감을 개선하고 합성 이미지를 적절한 도메인으로 분류하여 분리화를 강화한다.
VAE와 유사한 재구성 손실, 특징 공간과 픽셀 공간의 적대적 손실, 그리고 상호 정보–유사 도메인 분류 손실(L_cls)을 사용하여 최적화한다.
정의된 그래디언트에 따라 E, G, D_v, D_x의 업데이트를 교대로 수행하는 학습 동역학을 제공한다.

실험 결과

연구 질문

RQ1하나의 단일 모델이 쌍뿐만 아니라 많은 도메인에 걸쳐 도메인 불변 표현을 학습할 수 있는가?
RQ2학습된 잠재 표현이 페어링된 데이터 없이도 연속적인 다중 도메인 번역 및 조작을 지원할 수 있는가?
RQ3이미지 번역을 넘어 비지도 도메인 적응에 대해 이 접근 방식이 이점을 제공하는가?
RQ4분리가 번역 품질과 도메인 적응 성능에 어떤 영향을 미치는가?

주요 결과

UFDN은 스케치, 사진, 페인트 도메인 간 다중 도메인 이미지 번역을 가능하게 하며, 도메인 벡터의 보간을 통해 연속 도메인 전이가 가능하다.
UFDN은 경쟁력 있는 번역 품질을 달성하며 E-CDRD를 능가하고 CelebA 기반 작업에서 특정 지표(SSIM, MSE, PSNR)에서 StarGAN과 일치한다.
Digits의 비지도 도메인 적응(MNIST/USPS/SVHN)에서 UFDN은 최첨단 또는 근접 상태의 결과를 얻으며 예: MNIST→USPS: 97.13% 정확도; SVHN→MNIST: 95.01% 정확도.
t-SNE 시각화는 도메인 불변 표현이 도메인보다 숫자 클래스에 따라 군집함을 보여 주어, 성공적인 분리를 시사한다.
절단 연구에서 자기 지도 분리(D_v 도메인 상대적)와 픽셀 공간 적대적 학습이 효과적인 분리 및 번역에 필요함을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.