[论文解读] ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks
ESRGAN 通过引入 Residual-in-Residual Dense Blocks(不使用 batch normalization)、一个相对判别器,以及在激活前的特征上计算感知损失,从而实现更高的感知质量并在 PIRM-SR Challenge region 3 中胜出,优于 SRGAN。
The Super-Resolution Generative Adversarial Network (SRGAN) is a seminal work that is capable of generating realistic textures during single image super-resolution. However, the hallucinated details are often accompanied with unpleasant artifacts. To further enhance the visual quality, we thoroughly study three key components of SRGAN - network architecture, adversarial loss and perceptual loss, and improve each of them to derive an Enhanced SRGAN (ESRGAN). In particular, we introduce the Residual-in-Residual Dense Block (RRDB) without batch normalization as the basic network building unit. Moreover, we borrow the idea from relativistic GAN to let the discriminator predict relative realness instead of the absolute value. Finally, we improve the perceptual loss by using the features before activation, which could provide stronger supervision for brightness consistency and texture recovery. Benefiting from these improvements, the proposed ESRGAN achieves consistently better visual quality with more realistic and natural textures than SRGAN and won the first place in the PIRM2018-SR Challenge. The code is available at https://github.com/xinntao/ESRGAN .
研究动机与目标
- Motivate improving perceptual quality in single image super-resolution (SISR) beyond PSNR-oriented methods.
- Develop a deeper generator architecture that is easier to train and yields richer textures.
- Incorporate a more effective discriminator and perceptual loss to guide texture recovery.
提出的方法
- 用 Residual-in-Residual Dense Blocks (RRDB) 取代 batch normalization 以构成更深的生成器。
- 移除 BN 层,应用残差缩放,并使用更小的初始化以实现稳定的 GAN 训练。
- 采用 Relativistic average Discriminator (RaD) 以相对判别的判断来训练生成器。
- 使用激活前的特征计算感知损失,以提供更强的、保持亮度的监督。
- 可选地包含基于 MINC 的感知损失变体,重点关注纹理。
- 引入网络插值,以在不重新训练的情况下平衡感知质量与保真度。
实验结果
研究问题
- RQ1移除批量归一化并使用 RRDBs 如何影响基于 SRGAN 的模型的训练稳定性和视觉质量?
- RQ2相对判别器是否相比标准 GAN 判别器提高了超分辨输出的纹理真实感和边缘清晰度?
- RQ3使用激活前的特征来计算感知损失是否比使用激活后的特征产生更亮、边缘更清晰的结果?这对纹理恢复有何影响?
- RQ4网络插值是否能在不额外训练的情况下有效平衡感知质量与 PSNR/结构保真度?
- RQ5在不同评测体系(如 PIRM-SR)下,额外数据集和训练策略为真实性与纹理细节在 SR 中带来哪些提升?
主要发现
- ESRGAN 在感知质量和纹理方面始终优于 SRGAN 及其他以 PSNR 为导向的方法。
- 移除 BN 层并采用 RRDB 使得可以训练更深的生成器,从而提升纹理恢复。
- 相对平均判别器提升了生成纹理的边缘清晰度和细节。
- 在激活前的特征上计算的感知损失提供了比激活后的特征更锐利的边缘和更准确的亮度。
- 网络插值提供了平滑的控制,可以在不重新训练的情况下平衡感知质量与保真度,优于简单的图像插值。
- 该模型变体在 PIRM-SR Challenge region 3 夺得第一名,具有最佳感知指数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。