QUICK REVIEW

[논문 리뷰] UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models

Hiroshi Sasaki, Chris G. Willcocks|arXiv (Cornell University)|2021. 04. 12.

Generative Adversarial Networks and Image Synthesis참고 문헌 30인용 수 69

한 줄 요약

UNIT-DDPM은 denoising diffusion probabilistic models를 이용해 adversarial training 없이 쌍이 없는 이미지-투-이미지 번역을 수행하고 두 도메인에 대한 공동 Markov-chain 분포를 학습하며 소스 도메인에 조건화된 샘플링으로 샘플링함으로써 강력한 FID 점수를 달성한다.

ABSTRACT

We propose a novel unpaired image-to-image translation method that uses denoising diffusion probabilistic models without requiring adversarial training. Our method, UNpaired Image Translation with Denoising Diffusion Probabilistic Models (UNIT-DDPM), trains a generative model to infer the joint distribution of images over both domains as a Markov chain by minimising a denoising score matching objective conditioned on the other domain. In particular, we update both domain translation models simultaneously, and we generate target domain images by a denoising Markov Chain Monte Carlo approach that is conditioned on the input source domain images, based on Langevin dynamics. Our approach provides stable model training for image-to-image translation and generates high-quality image outputs. This enables state-of-the-art Fréchet Inception Distance (FID) performance on several public datasets, including both colour and multispectral imagery, significantly outperforming the contemporary adversarial image-to-image translation methods.

연구 동기 및 목표

안정성과 출력 품질을 개선하기 위해 adversarial training 없이 쌍이 없는 이미지-투-이미지 번역을 고무한다.
두 도메인 모두의 공동 분포를 Markov 체인으로 학습하는 이중 도메인 DDPM 기반 모델을 제안한다.
소스 도메인에서 타깃 도메인으로 번역하기 위한 조건부 노이즈 제거 샘플링 절차를 개발한다.
사이클 일관성 규제를 통해 학습의 안정성과 양방향 번역 품질의 균형을 보장한다.
색상 및 다스펙트럼 이미지 등 벤치마크 데이터셋에서 FID의 실증적 개선을 보여준다.

제안 방법

소스 도메인과 타깃 도메인에 대한 공동 분포를 Markov 체인으로 모델링하는 이중 도메인 DDPM을 학습한다.
학습 중 역확산 과정을 다른 도메인으로부터의 번역 이미지에 조건화한다(DSM 목표).
denoising score matching 손실 (L_simple)을 사용하여 denoising 네트워크 매개변수를 학습한다.
추론 시 Langevin 다이내믹스 기반의 조건부 역확산으로 도메인 번역을 수행한다.
양방향 번역을 정규화하기 위해 사이클-일관성 손실을 고용한다.
확산 단계에 대해 ResNet 아키텍처를 가진 도메인 번역기와 U-Net 백본을 가진 denoising 네트워크를 구현한다.

실험 결과

연구 질문

RQ1DDPM을 사용하여 공동 도메인 분포를 모델링함으로써 adversarial training 없이 쌍이 없는 I2I 번역을 달성할 수 있는가?
RQ2역확산 역과정을 상응 도메인에 조건화하는 것이 효과적인 교차 도메인 번역을 가능하게 하는가?
RQ3제안된 DSM 기반 학습이 다양한 데이터셋에서 안정적인 최적화와 고품질 출력을 보장하는가?
RQ4릴리스-타임 매개변수(t_r)가 데이터셋 간 번역 품질에 미치는 영향은 무엇인가?
RQ5표준 비쌍 I2I 벤치마크에서 UNIT-DDPM이 CycleGAN, UNIT, MUNIT, DRIT++에 대해 FID 측면에서 어떻게 수행하는가?

주요 결과

UNIT-DDPM은 Facades, Photos–Maps, Summer–Winter, RGB–Thermal 데이터셋에서 CycleGAN, UNIT, MUNIT, DRIT++과 비교하여 최첨단 FID 점수를 달성한다.
학습은 adversarial 목적 없이 안정적이며, 모드 붕괴와 같은 일반적인 GAN 학습 문제를 줄여준다.
노이즈 제거 확산 프레임워크는 고품질의 현실적 출력과 진행적 샘플링 비주얼을 가능하게 한다.
추론 샘플은 입력 소스 이미지에 조건화되며 Langevin-dynamics 기반 확산 샘플링으로 타깃 도메인 이미지를 생성한다.
릴리스-타임(t_r) 민감도는 데이터셋 의존적이지만 테스트 범위 내에서 일반적으로 FID에 미치는 영향은 제한적임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.