Skip to main content
QUICK REVIEW

[论文解读] Image Super-Resolution via Iterative Refinement

Chitwan Saharia, Jonathan Ho|arXiv (Cornell University)|Apr 15, 2021
Advanced Image Processing Techniques被引用 46
一句话总结

SR3 将去噪扩散模型适用于条件图像超分辨率,通过迭代去噪过程产生高保真输出,并实现级联高分辨率生成。

ABSTRACT

We present SR3, an approach to image Super-Resolution via Repeated Refinement. SR3 adapts denoising diffusion probabilistic models to conditional image generation and performs super-resolution through a stochastic denoising process. Inference starts with pure Gaussian noise and iteratively refines the noisy output using a U-Net model trained on denoising at various noise levels. SR3 exhibits strong performance on super-resolution tasks at different magnification factors, on faces and natural images. We conduct human evaluation on a standard 8X face super-resolution task on CelebA-HQ, comparing with SOTA GAN methods. SR3 achieves a fool rate close to 50%, suggesting photo-realistic outputs, while GANs do not exceed a fool rate of 34%. We further show the effectiveness of SR3 in cascaded image generation, where generative models are chained with super-resolution models, yielding a competitive FID score of 11.3 on ImageNet.

研究动机与目标

  • 将扩散概率模型应用于条件图像生成的超分辨率。
  • 开发一个以低分辨率输入为条件的去噪U-Net,以迭代地细化输出。
  • 在人脸和自然图像超分辨率上评估 SR3,包括人类欺骗率研究和级联高分辨率生成。

提出的方法

  • 使用一个条件 DDPM 框架将高斯噪声转换为以低分辨率输入为条件的高分辨率图像。
  • 训练一个U-Net去噪器 f_theta,它接收 (x, y_t, gamma) 并预测噪声 epsilon,使用去噪目标。
  • 通过将上采样后的低分辨率输入与 gamma 作为噪声水平标量拼接来对去噪器进行条件化。
  • 通过固定的有限数量的细化步骤 T 进行推断,使用高斯后验 p_theta(y_{t-1}|y_t,x)。
  • 采用带有 gamma 绑定条件的扩散调度,并使用将预测的噪声与 epsilon 匹配的损失进行训练。
  • 可选地跨尺度级联 SR3 模型以高效地构建高分辨率输出。
  • 使用人类欺骗率研究来评估感知质量,并包括级联生成的自动指标(FID/IS)。

实验结果

研究问题

  • RQ1SR3 是否能够有效建模条件分布 p(y|x) 以实现跨人脸与自然图像的高保真超分辨率?
  • RQ2在感知质量和与输入的一致性方面,SR3 相对于基于 GAN 的方法(FSRGAN、PULSE)和回归基线的比较如何?
  • RQ3跨尺度级联 SR3 是否能够实现高效且高质量的 1024x1024 人脸和 256x256 ImageNet 生成?
  • RQ4使用基于扩散的迭代细化对人类欺骗率结果以及像 FID/IS 这样的标准指标有何影响?
  • RQ5(与上采样 x 的拼接和 gamma 条件) 的条件化方法是否足以实现高质量的 SR?

主要发现

模型PSNRSSIM一致性
PULSE16.880.44161.1
FSRGAN23.010.6233.8
Regression23.960.692.71
SR323.040.652.68
  • SR3 在人类感知质量方面达到与最先进 GAN 相当或更优的水平(在 8x CelebA-HQ 人脸超分辨率上的欺骗率接近 50%)。
  • SR3 在与低分辨率输入的一致性方面优于基于 GAN 的方法,无需辅助一致性损失。
  • 在 ImageNet 自然图像上,SR3 的 FID/IS 高于回归基线,尽管 PSNR/SSIM 较低。
  • 级联 SR3 流水线可以生成 1024x1024 的人脸和 256x256 的 ImageNet 样本,FID 得分具竞争力。
  • 自动指标(PSNR/SSIM)可能与人类偏好高保真、多模态输出不一致;SR3 在许多场景提升了感知质量。
  • 无条件级联(64x64 到更高分辨率)展示了通过分阶段细化合成高分辨率图像的能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。