QUICK REVIEW

[论文解读] SRPGAN: Perceptual Generative Adversarial Network for Single Image Super Resolution

Bingzhe Wu, Haodong Duan|arXiv (Cornell University)|Dec 16, 2017

Advanced Image Processing Techniques参考文献 26被引用 42

一句话总结

该论文提出SRPGAN，一种用于单图像超分辨率的感知生成对抗网络，其用一种新颖且鲁棒的感知损失替代了传统的像素级损失，该损失源自判别器的特征。通过结合用于内容保持的Charbonnier损失与对抗训练，SRPGAN在结构相似性（SSIM）方面达到最先进性能，并生成更清晰、更逼真、细节更丰富的高分辨率图像，尤其在大缩放因子（4倍和8倍）下表现优异。

ABSTRACT

Single image super resolution (SISR) is to reconstruct a high resolution image from a single low resolution image. The SISR task has been a very attractive research topic over the last two decades. In recent years, convolutional neural network (CNN) based models have achieved great performance on SISR task. Despite the breakthroughs achieved by using CNN models, there are still some problems remaining unsolved, such as how to recover high frequency details of high resolution images. Previous CNN based models always use a pixel wise loss, such as l2 loss. Although the high resolution images constructed by these models have high peak signal-to-noise ratio (PSNR), they often tend to be blurry and lack high-frequency details, especially at a large scaling factor. In this paper, we build a super resolution perceptual generative adversarial network (SRPGAN) framework for SISR tasks. In the framework, we propose a robust perceptual loss based on the discriminator of the built SRPGAN model. We use the Charbonnier loss function to build the content loss and combine it with the proposed perceptual loss and the adversarial loss. Compared with other state-of-the-art methods, our method has demonstrated great ability to construct images with sharp edges and rich details. We also evaluate our method on different benchmarks and compare it with previous CNN based methods. The results show that our method can achieve much higher structural similarity index (SSIM) scores on most of the benchmarks than the previous state-of-art methods.

研究动机与目标

解决像素级损失函数（如L2）在生成模糊、过度平滑的超分辨率图像方面的局限性。
在单图像超分辨率（SISR）中提升感知质量和高频细节恢复能力，超越仅优化PSNR的方法。
通过利用判别器网络的特征，开发一种更鲁棒且高效的感知损失，消除SRGAN中对额外VGG网络的依赖。
在大缩放因子（4倍、8倍）下，实现定量指标（SSIM）和视觉质量的卓越表现。

提出的方法

提出一种新颖的感知损失函数，直接从判别器网络的中间特征中提取，以增强鲁棒性和感知真实感。
使用Charbonnier损失函数作为内容损失，以减少对异常值的敏感性，并相比L2或L1损失提升训练稳定性。
将Charbonnier内容损失、所提出的基于判别器的感知损失以及对抗损失整合为生成器和判别器的统一目标函数。
在生成器中用实例归一化替代批量归一化，以改善特征表示和训练稳定性。
采用受图像到图像翻译模型启发的GAN框架，其中生成器负责生成高分辨率图像，判别器负责区分真实图像与生成图像。
使用联合损失函数端到端训练模型，以平衡感知质量、内容保真度和对抗真实性。

实验结果

研究问题

RQ1能否从判别器内部特征中提取的感知损失在SISR中优于基于外部VGG的感知损失？
RQ2用Charbonnier损失替代L2损失是否能提升超分辨率结果的质量和训练稳定性？
RQ3基于判别器的感知损失的GAN框架能否在SSIM和视觉质量上超越基于像素级损失的SISR方法？
RQ4与最先进方法相比，该方法在大缩放因子（如4倍、8倍）下的表现如何？
RQ5移除感知损失或将其替换为L2损失对最终图像质量和SSIM分数有何影响？

主要发现

SRPGAN在大多数基准测试中达到最高的SSIM分数，Set14上为0.786，BSDS100上为0.749，优于以往最先进方法。
使用所提感知损失训练的模型在Set14上SSIM达0.786，显著高于未使用感知损失的相同模型（0.754），证明了其关键作用。
视觉对比显示，SRPGAN在重建面部胡须和纹理等精细细节方面优于基于L2损失的模型，后者生成的输出更模糊。
采用Charbonnier损失的模型收敛更快，性能更优，相比L2或L1内容损失，实现相当结果所需训练轮数更少。
SRPGAN在感知质量上优于SRGAN，尤其在重建如狒狒胡须等精细细节方面表现更佳，且无需依赖外部VGG网络。
尽管具有优势，该模型在高倍放大时仍会出现棋盘状伪影，这是基于转置卷积的GAN的已知局限，已被识别为未来工作的重点。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。