[论文解读] ResShift: Efficient Diffusion Model for Image Super-resolution by Residual Shifting
ResShift 引入了一种基于扩散的 SR 模型,通过移位残差在高分和低分之间传递,在仅需 15 步采样且无后续加速的情况下实现有竞争力的结果。
Diffusion-based image super-resolution (SR) methods are mainly limited by the low inference speed due to the requirements of hundreds or even thousands of sampling steps. Existing acceleration sampling techniques inevitably sacrifice performance to some extent, leading to over-blurry SR results. To address this issue, we propose a novel and efficient diffusion model for SR that significantly reduces the number of diffusion steps, thereby eliminating the need for post-acceleration during inference and its associated performance deterioration. Our method constructs a Markov chain that transfers between the high-resolution image and the low-resolution image by shifting the residual between them, substantially improving the transition efficiency. Additionally, an elaborate noise schedule is developed to flexibly control the shifting speed and the noise strength during the diffusion process. Extensive experiments demonstrate that the proposed method obtains superior or at least comparable performance to current state-of-the-art methods on both synthetic and real-world datasets, even only with 15 sampling steps. Our code and model are available at https://github.com/zsyOAOA/ResShift.
研究动机与目标
- 在不牺牲质量的前提下,提升推理速度来推动基于扩 diffusion 的 SR 研究。
- 设计一种从 LR 图像开始的扩散过程,通过移位残差来恢复 HR 图像。
- 开发一个灵活的噪声时间表,以在扩散过程中控制移位速度和噪声强度。
- 在潜在空间中实现训练与推理,以降低计算开销。
提出的方法
- 通过逐步移位它们的残差 e0 = y0 - x0,在 HR 和 LR 图像之间构建一个马尔可夫链。
- 定义一个过渡 q(x_t|x_{t-1}, y0),其漂移与残差成正比并带有可调整的噪声项(Eq. 1)。
- 推导解析上可处理的边缘分布 q(x_t|x0,y0)(Eq. 2)和可处理的反向过程 p_theta(x_{t-1}|x_t,y0)(Eq. 4)。
- 用网络 f_theta 参数化反向均值以预测 x0(Eq. 7),并通过加权 KL 目标函数训练,简化为去噪风格的损失(Eq. 8)。
- 可选地在潜在空间(VQGAN)中进行训练,通过在潜在码上操作而不是原始图像。
实验结果
研究问题
- RQ1是否可以通过针对 LR-to-HR 恢复定制的扩散模型在保持 SR 保真度和真实感的同时减少推理步骤?
- RQ2在 SR 中将 HR 与 LR 间的残差移位,是否比基于高斯噪声的扩散过程提供更高效的扩散?
- RQ3灵活的噪声时间表如何影响 SR 结果的保真度-真实感权衡?
- RQ4与最先进的方法相比,ResShift 在合成与真实世界 SR 基准测试上的性能与效率如何?
主要发现
| 方法 | PSNR ↑ | SSIM ↑ | LPIPS ↓ | CLIPIQA ↑ | MUSIQ ↑ |
|---|---|---|---|---|---|
| ESRGAN | 20.67 | 0.448 | 0.485 | 0.451 | 43.615 |
| RealSR-JPEG | 23.11 | 0.591 | 0.326 | 0.537 | 46.981 |
| BSRGAN | 24.42 | 0.659 | 0.259 | 0.581 | 54.697 |
| SwinIR | 23.99 | 0.667 | 0.238 | 0.564 | 53.790 |
| RealESRGAN | 24.04 | 0.665 | 0.254 | 0.523 | 52.538 |
| DASR | 24.75 | 0.675 | 0.250 | 0.536 | 48.337 |
| LDM-15 | 24.89 | 0.670 | 0.269 | 0.512 | 46.419 |
| ResShift | 25.01 | 0.677 | 0.231 | 0.592 | 53.660 |
- ResShift 以仅 15 步采样即可实现具有竞争力或更高的 PSNR/SSIM,并在感知真实度(LPIPS,CLIPIQA)方面表现更好。
- 所提出的残差移位扩散核使马尔可夫链比传统扩散 SR 方法更短,从而提升推理效率。
- 灵活的噪声时间表(kappa 和 eta_t)提供保真度与真实感的权衡,在某些设定下可以模拟类似潜在扩散模型的扩散动态。
- 在 ImageNet-Test 的实验中,ResShift 在 PSNR 和 LPIPS 方面超过了若干基线,同时在真实世界数据集上保持了强劲的 CLIPIQA 和 MUSIQ 分数。
- 通过 VQGAN 的潜在空间实现进一步降低了训练时间开销,同时不改变核心扩散公式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。