Skip to main content
QUICK REVIEW

[논문 리뷰] DualGAN: Unsupervised Dual Learning for Image-to-Image Translation

Zili Yi, Hao Zhang|arXiv (Cornell University)|2017. 04. 08.
Generative Adversarial Networks and Image Synthesis참고 문헌 1인용 수 310
한 줄 요약

DualGAN은 두 도메인의 비라벨 이미지 집합에서 프라이멀-듀얼 루프를 사용해 두 개의 제너레이터를 학습하여 재구성 손실과 적대적 판별기를 이용한 비지도 이미지-이미지 번역을 가능하게 한다.

ABSTRACT

Conditional Generative Adversarial Networks (GANs) for cross-domain image-to-image translation have made much progress recently. Depending on the task complexity, thousands to millions of labeled image pairs are needed to train a conditional GAN. However, human labeling is expensive, even impractical, and large quantities of data may not always be available. Inspired by dual learning from natural language translation, we develop a novel dual-GAN mechanism, which enables image translators to be trained from two sets of unlabeled images from two domains. In our architecture, the primal GAN learns to translate images from domain U to those in domain V, while the dual GAN learns to invert the task. The closed loop made by the primal and dual tasks allows images from either domain to be translated and then reconstructed. Hence a loss function that accounts for the reconstruction error of images can be used to train the translators. Experiments on multiple image translation tasks with unlabeled data show considerable performance gain of DualGAN over a single GAN. For some tasks, DualGAN can even achieve comparable or slightly better results than conditional GAN trained on fully labeled data.

연구 동기 및 목표

  • 레이블된 쌍이 드물거나 이용 불가능할 때 비지도 이미지-이미지 번역을 동기화한다.
  • NLP 이중 학습에서 영감을 받은 이중 학습 프레임워크를 개발하여 라벨 없는 데이터로부터 양방향 번역기를 학습한다.
  • 도메인 일관성을 강제하고 고품질 번역을 생성하기 위해 적대적 판별자와 재구성 손실을 활용한다.

제안 방법

  • 두 GAN(프라이멀 및 듀얼)을 사용하여 G_A: U -> V, G_B: V -> U를 unlabeled U 및 V에서 학습한다.
  • D_A와 D_B의 판별기에 Wasserstein GAN 손실을 적용하여 실제 샘플과 번역 샘플을 구분한다.
  • ||u - G_B(G_A(u,z), z')||와 ||v - G_A(G_B(v,z'), z)||를 추가로 적용하여 사이클-일관성을 강제한다.
  • 구조적 디테일을 보존하기 위해 스킵 연결이 있는 U-Net 스타일 아키텍처로 제너레이터를 구성한다.
  • 로컬 텍스처와 스타일을 포착하기 위해 70x70 패치에서 작동하는 PatchGAN 판별기를 사용한다.
  • WGAN에서의 RMSProp 및 가중치 클리핑을 사용한 교대 학습 방식으로 학습한다: 판별기 n_critic 스텝, 그 다음 제너레이터 업데이트.

실험 결과

연구 질문

  • RQ1두 개의 라벨이 없는 이미지 세트 U와 V로부터 신뢰할 수 있는 양방향 번역기 G_A 및 G_B를 학습할 수 있는가?
  • RQ2재구성(사이클-일관성) 손실을 적대적 피드백과 결합하면 단일 GAN 기반 기준선보다 번역 품질이 향상되는가?
  • RQ3DualGAN은 라벨 데이터가 없는 다양한 번역 작업에서 GAN 및 감독형 cGAN과 비교하여 어떻게 성능하는가?
  • RQ4번역 신뢰도에 큰 영향을 주는 네트워크 설계 선택은 무엇인가(예: U-Net 제너레이터, PatchGAN 판별기)?
  • RQ5어떤 작업 특성으로 인해 감독 신호 없이 비지도 번역이 한계에 도달하는 경우가 있는가?

주요 결과

  • DualGAN은 여러 비지도 번역 작업에서 단일 GAN보다 흐림 현상과 인공물 발생이 적다.
  • 여러 작업에서 Duplex GAN은 라벨이 없는 데이터를 사용하더라도 감독형 cGAN의 성능에 맞추거나 이를 상회한다.
  • DualGAN은 라벨이 없는 데이터셋에서도 시각적으로 설득력 있는 번역을 생성할 수 있다(예: 기름->중국화, 플라스틱->금속 등).
  • AMT 기반의 지각 및 현실성 평가에서 DualGAN이 GAN보다 우수하고, 일부 작업에서는 cGAN의 성능에 필적한다.
  • 레이블-정면도와 지도-입사 이미지가 필요한 작업들에 대해, 학습 중 픽셀-레이블 대응 정보의 부재로 DualGAN은 cGAN에 뒤처지는 경우가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.