Skip to main content
QUICK REVIEW

[论文解读] Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise

Arpit Bansal, Eitan Borgnia|arXiv (Cornell University)|Aug 19, 2022
Generative Adversarial Networks and Image Synthesis被引用 105
一句话总结

论文表明扩散式生成模型可以围绕任意确定性图像降尺度构建(不仅仅是高斯噪声),并提出一个稳定的采样方法(算法2)来反演这些降尺度,以实现高质量图像生成和恢复。

ABSTRACT

Standard diffusion models involve an image transform -- adding Gaussian noise -- and an image restoration operator that inverts this degradation. We observe that the generative behavior of diffusion models is not strongly dependent on the choice of image degradation, and in fact an entire family of generative models can be constructed by varying this choice. Even when using completely deterministic degradations (e.g., blur, masking, and more), the training and test-time update rules that underlie diffusion models can be easily generalized to create generative models. The success of these fully deterministic models calls into question the community's understanding of diffusion models, which relies on noise in either gradient Langevin dynamics or variational inference, and paves the way for generalized diffusion models that invert arbitrary processes. Our code is available at https://github.com/arpitbansal297/Cold-Diffusion-Models

研究动机与目标

  • 探索围绕任意降尺度构建的广义扩散模型,超越高斯噪声。
  • 训练修复网络以使用简单的 L1 损失来反转这些降尺度。
  • 开发稳健的采样过程,从确定性降尺度中产生高质量生成。

提出的方法

  • 定义一个降尺度算子 D,使 x0 经过严重程度 t 转换为 xt,并定义一个修复网络 R,以从 xt 近似 x0。
  • 通过在 l1 损失下最小化 E_x ||R(D(x,t),t) - x|| 来训练 R。
  • 提出用于采样的算法2,以应对不完美的反演,确保 x_{s-1} = x_s - D(R(x_s,s),s) + D(R(x_s,s),s-1)。
  • 证明对于一类线性降尺度,算法2在 R 不完美时也能恢复 x_s = D(x0,s)。
  • 展示在 MNIST、CIFAR-10 和 CelebA 上,涉及去模糊、修补、超分辨、降雪(snowification)以及其他变换的生成与反演。
  • 使用 FID、SSIM 和 RMSE 来评估,以比较降级、直接重建和采样重建。

实验结果

研究问题

  • RQ1扩散模型能否泛化到超越高斯噪声的任意确定性降尺度?
  • RQ2是否存在一个稳健的采样算法,即使修复模型不完美也能实现高质量生成?
  • RQ3不同的确定性变换(去模糊、修补、超分辨、降雪)如何影响重建质量和分布相似性?
  • RQ4冷扩散是否能够使用非噪声降尺度(如模糊或掩膜)实现无条件生成?

主要发现

  • 一个完全确定性的扩散框架通过在修复和降尺度之间交替,可以在不使用随机性的情况下生成照片级真实感的图像。
  • 算法2为修复误差提供稳定性,即使 R 不完美,也能对线性降尺度恢复 D(x0,s)。
  • 在该框架下训练的去模糊、修补和超分辨模型相对于直接重建具有改进的 FID 得分,表明更接近数据流形。
  • 在降雪和模糊任务中,采样重建在分布相似性(FID)指标上可能优于直接重建,尽管有时会增加 RMSE 或降低 PSNR。
  • 该方法可以扩展到使用模糊进行生成,结果表明保真度高但多样性可变,并且可以扩展到其他变换,如 animorphosis。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。