[论文解读] UNIT-DDPM: UNpaired Image Translation with Denoising Diffusion Probabilistic Models
UNIT-DDPM 使用去噪扩散概率模型来执行非配对的图像到图像翻译,无需对抗训练,通过学习一个跨两个域的联合马尔可夫链分布并对源域进行条件采样,获得强的 FID 分数。
We propose a novel unpaired image-to-image translation method that uses denoising diffusion probabilistic models without requiring adversarial training. Our method, UNpaired Image Translation with Denoising Diffusion Probabilistic Models (UNIT-DDPM), trains a generative model to infer the joint distribution of images over both domains as a Markov chain by minimising a denoising score matching objective conditioned on the other domain. In particular, we update both domain translation models simultaneously, and we generate target domain images by a denoising Markov Chain Monte Carlo approach that is conditioned on the input source domain images, based on Langevin dynamics. Our approach provides stable model training for image-to-image translation and generates high-quality image outputs. This enables state-of-the-art Fréchet Inception Distance (FID) performance on several public datasets, including both colour and multispectral imagery, significantly outperforming the contemporary adversarial image-to-image translation methods.
研究动机与目标
- 在不使用对抗训练的情况下推动无配对的图像到图像翻译,以提高稳定性和输出质量。
- 提出一个基于双域 DDPM 的模型,将两个域上的联合分布作为一个马尔可夫链来学习。
- 开发一个条件去噪采样过程,以从源域翻译到目标域。
- 通过循环一致性正则化确保训练稳定性并提升翻译质量。
- 在基准数据集上(包括彩色与多光谱图像)展示 FID 的经验改进。
提出的方法
- 训练双域 DDPMs,将源域与目标域的联合分布建模为一个马尔可夫链。
- 在训练时将反向扩散过程条件化为来自另一域的翻译图像(DSM 目标)。
- 使用去噪分数匹配损失(L_simple)来学习去噪网络参数。
- 在推理阶段通过带有 Langevin 动态的条件化反向扩散进行域翻译。
- 使用循环一致性损失来正则化双向翻译。
- 使用带有 ResNet 架构的域翻译器,以及用于扩散步骤的 U-Net 主干的去噪网络。
实验结果
研究问题
- RQ1通过使用 DDPMs 对联合域分布建模,是否可以在不使用对抗训练的情况下实现无配对的 I2I 翻译?
- RQ2将扩散反向过程条件化为对方域,是否能够实现有效的跨域翻译?
- RQ3提出的基于 DSM 的训练是否在多样数据集上实现稳定优化并产出高质量结果?
- RQ4t_r 参数对翻译质量在不同数据集上的影响如何?
- RQ5在标准无配对 I2I 基准测试中,UNIT-DDPM 在 FID 指标上相对于 CycleGAN、UNIT、MUNIT 和 DRIT++ 的表现如何?
主要发现
- 相较于 CycleGAN、UNIT、MUNIT 和 DRIT++,UNIT-DDPM 在 Facades、Photos–Maps、Summer–Winter、RGB–Thermal 数据集上取得了最先进的 FID 分数。
- 在没有对抗目标的情况下训练稳定,减少了常见的 GAN 训练问题,例如模式崩溃。
- 去噪扩散框架实现了高质量、真实感输出,并允许渐进采样可视化。
- 推理样本以输入源图像为条件,通过基于 Langevin 动力学的扩散采样生成目标域图像。
- Release-time(t_r)敏感性显示出数据集相关但在测试范围内通常对 FID 影响有限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。