QUICK REVIEW

[论文解读] Image Super-Resolution via Iterative Refinement

Chitwan Saharia, Jonathan Ho|arXiv (Cornell University)|Apr 15, 2021

Advanced Image Processing Techniques被引用 46

一句话总结

SR3 将去噪扩散模型适用于条件图像超分辨率，通过迭代去噪过程产生高保真输出，并实现级联高分辨率生成。

ABSTRACT

We present SR3, an approach to image Super-Resolution via Repeated Refinement. SR3 adapts denoising diffusion probabilistic models to conditional image generation and performs super-resolution through a stochastic denoising process. Inference starts with pure Gaussian noise and iteratively refines the noisy output using a U-Net model trained on denoising at various noise levels. SR3 exhibits strong performance on super-resolution tasks at different magnification factors, on faces and natural images. We conduct human evaluation on a standard 8X face super-resolution task on CelebA-HQ, comparing with SOTA GAN methods. SR3 achieves a fool rate close to 50%, suggesting photo-realistic outputs, while GANs do not exceed a fool rate of 34%. We further show the effectiveness of SR3 in cascaded image generation, where generative models are chained with super-resolution models, yielding a competitive FID score of 11.3 on ImageNet.

研究动机与目标

将扩散概率模型应用于条件图像生成的超分辨率。
开发一个以低分辨率输入为条件的去噪U-Net，以迭代地细化输出。
在人脸和自然图像超分辨率上评估 SR3，包括人类欺骗率研究和级联高分辨率生成。

提出的方法

使用一个条件 DDPM 框架将高斯噪声转换为以低分辨率输入为条件的高分辨率图像。
训练一个U-Net去噪器 f_theta，它接收 (x, y_t, gamma) 并预测噪声 epsilon，使用去噪目标。
通过将上采样后的低分辨率输入与 gamma 作为噪声水平标量拼接来对去噪器进行条件化。
通过固定的有限数量的细化步骤 T 进行推断，使用高斯后验 p_theta(y_{t-1}|y_t,x)。
采用带有 gamma 绑定条件的扩散调度，并使用将预测的噪声与 epsilon 匹配的损失进行训练。
可选地跨尺度级联 SR3 模型以高效地构建高分辨率输出。
使用人类欺骗率研究来评估感知质量，并包括级联生成的自动指标（FID/IS）。

实验结果

研究问题

RQ1SR3 是否能够有效建模条件分布 p(y|x) 以实现跨人脸与自然图像的高保真超分辨率？
RQ2在感知质量和与输入的一致性方面，SR3 相对于基于 GAN 的方法（FSRGAN、PULSE）和回归基线的比较如何？
RQ3跨尺度级联 SR3 是否能够实现高效且高质量的 1024x1024 人脸和 256x256 ImageNet 生成？
RQ4使用基于扩散的迭代细化对人类欺骗率结果以及像 FID/IS 这样的标准指标有何影响？
RQ5（与上采样 x 的拼接和 gamma 条件）的条件化方法是否足以实现高质量的 SR？

主要发现

模型	PSNR	SSIM	一致性
PULSE	16.88	0.44	161.1
FSRGAN	23.01	0.62	33.8
Regression	23.96	0.69	2.71
SR3	23.04	0.65	2.68

SR3 在人类感知质量方面达到与最先进 GAN 相当或更优的水平（在 8x CelebA-HQ 人脸超分辨率上的欺骗率接近 50%）。
SR3 在与低分辨率输入的一致性方面优于基于 GAN 的方法，无需辅助一致性损失。
在 ImageNet 自然图像上，SR3 的 FID/IS 高于回归基线，尽管 PSNR/SSIM 较低。
级联 SR3 流水线可以生成 1024x1024 的人脸和 256x256 的 ImageNet 样本，FID 得分具竞争力。
自动指标（PSNR/SSIM）可能与人类偏好高保真、多模态输出不一致；SR3 在许多场景提升了感知质量。
无条件级联（64x64 到更高分辨率）展示了通过分阶段细化合成高分辨率图像的能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。