Skip to main content
QUICK REVIEW

[논문 리뷰] UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models

Hiroshi Sasaki, Chris G. Willcocks|arXiv (Cornell University)|2021. 04. 12.
Generative Adversarial Networks and Image Synthesis참고 문헌 30인용 수 69
한 줄 요약

UNIT-DDPM은 denoising diffusion probabilistic models를 이용해 adversarial training 없이 쌍이 없는 이미지-투-이미지 번역을 수행하고 두 도메인에 대한 공동 Markov-chain 분포를 학습하며 소스 도메인에 조건화된 샘플링으로 샘플링함으로써 강력한 FID 점수를 달성한다.

ABSTRACT

We propose a novel unpaired image-to-image translation method that uses denoising diffusion probabilistic models without requiring adversarial training. Our method, UNpaired Image Translation with Denoising Diffusion Probabilistic Models (UNIT-DDPM), trains a generative model to infer the joint distribution of images over both domains as a Markov chain by minimising a denoising score matching objective conditioned on the other domain. In particular, we update both domain translation models simultaneously, and we generate target domain images by a denoising Markov Chain Monte Carlo approach that is conditioned on the input source domain images, based on Langevin dynamics. Our approach provides stable model training for image-to-image translation and generates high-quality image outputs. This enables state-of-the-art Fréchet Inception Distance (FID) performance on several public datasets, including both colour and multispectral imagery, significantly outperforming the contemporary adversarial image-to-image translation methods.

연구 동기 및 목표

  • 안정성과 출력 품질을 개선하기 위해 adversarial training 없이 쌍이 없는 이미지-투-이미지 번역을 고무한다.
  • 두 도메인 모두의 공동 분포를 Markov 체인으로 학습하는 이중 도메인 DDPM 기반 모델을 제안한다.
  • 소스 도메인에서 타깃 도메인으로 번역하기 위한 조건부 노이즈 제거 샘플링 절차를 개발한다.
  • 사이클 일관성 규제를 통해 학습의 안정성과 양방향 번역 품질의 균형을 보장한다.
  • 색상 및 다스펙트럼 이미지 등 벤치마크 데이터셋에서 FID의 실증적 개선을 보여준다.

제안 방법

  • 소스 도메인과 타깃 도메인에 대한 공동 분포를 Markov 체인으로 모델링하는 이중 도메인 DDPM을 학습한다.
  • 학습 중 역확산 과정을 다른 도메인으로부터의 번역 이미지에 조건화한다(DSM 목표).
  • denoising score matching 손실 (L_simple)을 사용하여 denoising 네트워크 매개변수를 학습한다.
  • 추론 시 Langevin 다이내믹스 기반의 조건부 역확산으로 도메인 번역을 수행한다.
  • 양방향 번역을 정규화하기 위해 사이클-일관성 손실을 고용한다.
  • 확산 단계에 대해 ResNet 아키텍처를 가진 도메인 번역기와 U-Net 백본을 가진 denoising 네트워크를 구현한다.

실험 결과

연구 질문

  • RQ1DDPM을 사용하여 공동 도메인 분포를 모델링함으로써 adversarial training 없이 쌍이 없는 I2I 번역을 달성할 수 있는가?
  • RQ2역확산 역과정을 상응 도메인에 조건화하는 것이 효과적인 교차 도메인 번역을 가능하게 하는가?
  • RQ3제안된 DSM 기반 학습이 다양한 데이터셋에서 안정적인 최적화와 고품질 출력을 보장하는가?
  • RQ4릴리스-타임 매개변수(t_r)가 데이터셋 간 번역 품질에 미치는 영향은 무엇인가?
  • RQ5표준 비쌍 I2I 벤치마크에서 UNIT-DDPM이 CycleGAN, UNIT, MUNIT, DRIT++에 대해 FID 측면에서 어떻게 수행하는가?

주요 결과

  • UNIT-DDPM은 Facades, Photos–Maps, Summer–Winter, RGB–Thermal 데이터셋에서 CycleGAN, UNIT, MUNIT, DRIT++과 비교하여 최첨단 FID 점수를 달성한다.
  • 학습은 adversarial 목적 없이 안정적이며, 모드 붕괴와 같은 일반적인 GAN 학습 문제를 줄여준다.
  • 노이즈 제거 확산 프레임워크는 고품질의 현실적 출력과 진행적 샘플링 비주얼을 가능하게 한다.
  • 추론 샘플은 입력 소스 이미지에 조건화되며 Langevin-dynamics 기반 확산 샘플링으로 타깃 도메인 이미지를 생성한다.
  • 릴리스-타임(t_r) 민감도는 데이터셋 의존적이지만 테스트 범위 내에서 일반적으로 FID에 미치는 영향은 제한적임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.