[论文解读] Image Super-Resolution via Iterative Refinement
SR3 将去噪扩散模型适用于条件图像超分辨率,通过迭代去噪过程产生高保真输出,并实现级联高分辨率生成。
We present SR3, an approach to image Super-Resolution via Repeated Refinement. SR3 adapts denoising diffusion probabilistic models to conditional image generation and performs super-resolution through a stochastic denoising process. Inference starts with pure Gaussian noise and iteratively refines the noisy output using a U-Net model trained on denoising at various noise levels. SR3 exhibits strong performance on super-resolution tasks at different magnification factors, on faces and natural images. We conduct human evaluation on a standard 8X face super-resolution task on CelebA-HQ, comparing with SOTA GAN methods. SR3 achieves a fool rate close to 50%, suggesting photo-realistic outputs, while GANs do not exceed a fool rate of 34%. We further show the effectiveness of SR3 in cascaded image generation, where generative models are chained with super-resolution models, yielding a competitive FID score of 11.3 on ImageNet.
研究动机与目标
- 将扩散概率模型应用于条件图像生成的超分辨率。
- 开发一个以低分辨率输入为条件的去噪U-Net,以迭代地细化输出。
- 在人脸和自然图像超分辨率上评估 SR3,包括人类欺骗率研究和级联高分辨率生成。
提出的方法
- 使用一个条件 DDPM 框架将高斯噪声转换为以低分辨率输入为条件的高分辨率图像。
- 训练一个U-Net去噪器 f_theta,它接收 (x, y_t, gamma) 并预测噪声 epsilon,使用去噪目标。
- 通过将上采样后的低分辨率输入与 gamma 作为噪声水平标量拼接来对去噪器进行条件化。
- 通过固定的有限数量的细化步骤 T 进行推断,使用高斯后验 p_theta(y_{t-1}|y_t,x)。
- 采用带有 gamma 绑定条件的扩散调度,并使用将预测的噪声与 epsilon 匹配的损失进行训练。
- 可选地跨尺度级联 SR3 模型以高效地构建高分辨率输出。
- 使用人类欺骗率研究来评估感知质量,并包括级联生成的自动指标(FID/IS)。
实验结果
研究问题
- RQ1SR3 是否能够有效建模条件分布 p(y|x) 以实现跨人脸与自然图像的高保真超分辨率?
- RQ2在感知质量和与输入的一致性方面,SR3 相对于基于 GAN 的方法(FSRGAN、PULSE)和回归基线的比较如何?
- RQ3跨尺度级联 SR3 是否能够实现高效且高质量的 1024x1024 人脸和 256x256 ImageNet 生成?
- RQ4使用基于扩散的迭代细化对人类欺骗率结果以及像 FID/IS 这样的标准指标有何影响?
- RQ5(与上采样 x 的拼接和 gamma 条件) 的条件化方法是否足以实现高质量的 SR?
主要发现
| 模型 | PSNR | SSIM | 一致性 |
|---|---|---|---|
| PULSE | 16.88 | 0.44 | 161.1 |
| FSRGAN | 23.01 | 0.62 | 33.8 |
| Regression | 23.96 | 0.69 | 2.71 |
| SR3 | 23.04 | 0.65 | 2.68 |
- SR3 在人类感知质量方面达到与最先进 GAN 相当或更优的水平(在 8x CelebA-HQ 人脸超分辨率上的欺骗率接近 50%)。
- SR3 在与低分辨率输入的一致性方面优于基于 GAN 的方法,无需辅助一致性损失。
- 在 ImageNet 自然图像上,SR3 的 FID/IS 高于回归基线,尽管 PSNR/SSIM 较低。
- 级联 SR3 流水线可以生成 1024x1024 的人脸和 256x256 的 ImageNet 样本,FID 得分具竞争力。
- 自动指标(PSNR/SSIM)可能与人类偏好高保真、多模态输出不一致;SR3 在许多场景提升了感知质量。
- 无条件级联(64x64 到更高分辨率)展示了通过分阶段细化合成高分辨率图像的能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。