[论文解读] SRTransGAN: Image Super-Resolution using Transformer based Generative Adversarial Network
SRTransGAN 提出了一种基于变换器的 GAN,用于单图像超分辨率,生成器基于变换器,判别器为视觉变换器,在标准数据集上实现了改进的 PSNR/SSIM。
Image super-resolution aims to synthesize high-resolution image from a low-resolution image. It is an active area to overcome the resolution limitations in several applications like low-resolution object-recognition, medical image enhancement, etc. The generative adversarial network (GAN) based methods have been the state-of-the-art for image super-resolution by utilizing the convolutional neural networks (CNNs) based generator and discriminator networks. However, the CNNs are not able to exploit the global information very effectively in contrast to the transformers, which are the recent breakthrough in deep learning by exploiting the self-attention mechanism. Motivated from the success of transformers in language and vision applications, we propose a SRTransGAN for image super-resolution using transformer based GAN. Specifically, we propose a novel transformer-based encoder-decoder network as a generator to generate 2x images and 4x images. We design the discriminator network using vision transformer which uses the image as sequence of patches and hence useful for binary classification between synthesized and real high-resolution images. The proposed SRTransGAN outperforms the existing methods by 4.38 % on an average of PSNR and SSIM scores. We also analyze the saliency map to understand the learning ability of the proposed method.
研究动机与目标
- 利用变换器更好地捕捉图像超分辨率中的全局信息的动机。
- 开发一个基于变换器的编码器–解码器生成器,能够生成 2x 和 4x 的 SR 图像。
- 设计一个 ViT(Vision Transformer)为基础的判别器,以有效区分生成的 SR 图像与真实 HR 图像。
- 在与最先进方法的对比中评估提出的 SRTransGAN,并对变换器块、层级和训练数据进行消融分析。
提出的方法
- 提出具备变换器生成器(SRTransG)和视觉变换器判别器(SRTransD)的 SRTransGAN。
- 将 SRTransG 构造成一个多层次的编码器–解码器,具有跳跃连接和尺度级特征拼接,在拼接后进行通道数压缩的下采样/上采样。
- 采用带有“Multi Deconvolution 转置注意力”的变换器块设计,在通道上进行操作,前馈块中包含门控机制。
- 通过将 HR/SR 特征与上采样的 LR 信息拼接后再进行判别,遵循条件 GAN 框架来处理输入。
- 在对抗损失的基础上,结合感知损失或辅助损失(参考相关工作)以在渐进式的 2x 和 4x 设置中训练 SRTransGAN。
- 消融研究以评估变换器块数量、层级以及训练数据集对性能的影响。
- 提供定性显著性映射分析,以理解学习行为。
实验结果
研究问题
- RQ1一个基于变换器的 GAN 是否能在单图像超分辨率方面优于基于 CNN 的方法及其他基于变换器的方法?
- RQ2视觉变换器判别器如何影响基于变换器的 SR 生成器的学习?
- RQ3网络深度(变换器块数量)和层级结构对 2x 与 4x 规模下的 SR 性能有何影响?
- RQ4通过带跳跃连接的渐进式 2x/4x 生成是否在高频区域实现更好的细节重建?
主要发现
- SRTransGAN 框架在 PSNR 和 SSIM 方面的平均改进比分现有方法高出 4.38%。
- 具有多层次编码器–解码器和跳跃连接的变换器生成器能够有效学习高频细节用于 SR。
- 视觉变换器判别器利用图像块进行稳健的真伪分类,促进对抗性协同训练。
- 消融研究显示不同数量的变换器块、层级和训练数据集如何影响性能。
- 显著性映射分析揭示模型在学习 SR 映射时关注的区域。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。