[论文解读] Recursive Generalization Transformer for Image Super-Resolution
论文介绍 Recursive Generalization Transformer (RGT),具备 recursive-generalization self-attention (RG-SA) 和 hybrid adaptive integration (HAI),用于以线性复杂度捕获高分辨率图像超分辨率的全局上下文,取得了最先进的结果。
Transformer architectures have exhibited remarkable performance in image super-resolution (SR). Since the quadratic computational complexity of the self-attention (SA) in Transformer, existing methods tend to adopt SA in a local region to reduce overheads. However, the local design restricts the global context exploitation, which is crucial for accurate image reconstruction. In this work, we propose the Recursive Generalization Transformer (RGT) for image SR, which can capture global spatial information and is suitable for high-resolution images. Specifically, we propose the recursive-generalization self-attention (RG-SA). It recursively aggregates input features into representative feature maps, and then utilizes cross-attention to extract global information. Meanwhile, the channel dimensions of attention matrices (query, key, and value) are further scaled to mitigate the redundancy in the channel domain. Furthermore, we combine the RG-SA with local self-attention to enhance the exploitation of the global context, and propose the hybrid adaptive integration (HAI) for module integration. The HAI allows the direct and effective fusion between features at different levels (local or global). Extensive experiments demonstrate that our RGT outperforms recent state-of-the-art methods quantitatively and qualitatively. Code and pre-trained models are available at https://github.com/zhengchen1999/RGT.
研究动机与目标
- 推动全局上下文建模用于图像超分辨率,超越局部自注意力方法。
- 开发一种基于 transformer 的架构,能够在可控计算量下处理高分辨率 SR。
- 设计 RG-SA,通过代表性特征图和跨注意力聚合全局信息。
- 引入 Hybrid Adaptive Integration (HAI) 有效融合局部和全局特征。
- 通过大量实验证明 RGT 实现了最先进的 SR 性能。
提出的方法
- 提出 Recursive Generalization Transformer (RGT) 架构,包含浅层特征提取、深层特征提取和图像重建模块。
- 引入 Recursive-Generalization Self-Attention (RG-SA),其使用 Recursive Generalization Module (RGM) 来创建恒定大小的代表性映射并通过跨注意力实现全局信息交换。
- 在注意力中对 query、key、value 通道进行缩放,以减少冗余并提高效率。
- 将 RG-SA 与 Local Self-Attention (L-SA) 交替块排列结合,以更好地利用全局上下文。
- 在每个 Transformer 块之外应用 Hybrid Adaptive Integration (HAI),通过可学习的 adaptor α 自适应融合输入和输出特征,提升模块集成和信息流。
实验结果
研究问题
- RQ1RG-SA 能否以线性计算复杂度捕捉适用于高分辨率 SR 的全局空间信息?
- RQ2通过 HAI 将 RG-SA 与 L-SA 结合是否能提升全局上下文的利用和重建质量?
- RQ3RG-SA 中通道缩放与递归对性能和效率的影响如何?
- RQ4在标准基准上,RGT 与最先进的基于 CNN 和 Transformer 的 SR 方法相比如何?
主要发现
- RGT 在标准基准测试上在缩放因子 x2、x3、x4 下均优于最近的最先进 SR 方法。
- RG-SA 在递归广义模块和跨注意力的辅助下,以线性复杂度实现全局信息建模。
- HAI 改善全局和局部 SA 模块之间的特征整合,提升信息流和性能。
- 消融研究表明 RG-SA 中的递归和通道缩放可降低 FLOPs 并提升 PSNR/SSIM,且 HAI 相较于普通跳连接带来显著增益。
- 在 DIV2K/Flickr2K 进行训练,在 Set5、Set14、B100、Urban100、Manga109 进行测试,实验展示了定量和定性改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。