[论文解读] Real-ESRGAN: Training Real-World Blind Super-Resolution with Pure Synthetic Data
Real-ESRGAN 通过使用高阶合成降级模型和带谱归一化的 U-Net 判别器,在纯合成数据上训练,取得对真实世界盲超分结果的优越表现。
Though many attempts have been made in blind super-resolution to restore low-resolution images with unknown and complex degradations, they are still far from addressing general real-world degraded images. In this work, we extend the powerful ESRGAN to a practical restoration application (namely, Real-ESRGAN), which is trained with pure synthetic data. Specifically, a high-order degradation modeling process is introduced to better simulate complex real-world degradations. We also consider the common ringing and overshoot artifacts in the synthesis process. In addition, we employ a U-Net discriminator with spectral normalization to increase discriminator capability and stabilize the training dynamics. Extensive comparisons have shown its superior visual performance than prior works on various real datasets. We also provide efficient implementations to synthesize training pairs on the fly.
研究动机与目标
- 在降级未知且复杂的现实世界场景中,推动盲重建的现实世界 SR。
- 开发一个更实用的降级模型,以更好地模拟现实世界的处理过程。
- 通过架构和训练方面的改进,提升训练稳定性与感知质量。
- 证明使用合成数据训练在现实世界图像上可以优于以往的真实数据和合成数据方法。
提出的方法
- 引入一个高阶降级模型,该模型组合多种经典降级,以模拟现实世界的处理链。
- 在降级合成阶段引入一个 sinc 滤波器,以建模振铃和超调伪影。
- 采用带谱归一化的 U-Net 判别器,以提供更强的逐像素反馈并稳定 GAN 训练。
- 使用两阶段训练方案:先训练面向 PSNR 的模型(Real-ESRNet),再以 L1、感知损失和 GAN 损失进行微调。
- 通过在 RRDB 基于生成器处理前进行像素反卷积(pixel-unshuffle),将 ESRGAN 架构扩展以支持尺度因子 2 和 1。
实验结果
研究问题
- RQ1一个高阶合成降级模型是否能够弥合盲 SR 中合成降级与现实世界降级之间的差距?
- RQ2结合基于 sinc 的振铃伪影和 U-Net 判别器是否提升现实世界的重建质量和训练稳定性?
- RQ3仅凭合成数据是否足以在多样化现实数据集上超过以往的现实世界 SR 方法?
- RQ4在训练中对真实高分辨率图进行锐化是否能在不引入伪影的情况下进一步提升感知质量?
- RQ5Real-ESRGAN 相对于 ESRGAN 和其他最先进的盲 SR 方法在现实世界图像上的表现如何?
主要发现
- 使用纯合成数据训练的 Real-ESRGAN 在现实数据集上呈现出比以往方法更好的视觉效果。
- 二阶降级模型再加上基于 sinc 的伪影,有助于模拟现实世界降级并减少输出中的振铃/超调。
- 带谱归一化的 U-Net 判别器改善局部纹理重建并稳定 GAN 训练。
- 对真实高分辨率图进行锐化的 Real-ESRGAN 能进一步提升感知锐度且不引入明显伪影。
- 两阶段训练(先以 Real-ESRNet 初始化再进行 Real-ESRGAN 训练)可加速收敛并提升结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。