[论文解读] SRFormerV2: Taking a Closer Look at Permuted Self-Attention for Image Super-Resolution
SRFormer 引入置换自注意力(PSA),以实现大窗口自注意力并降低计算量,在经典、轻量级和真实世界的图像超分辨率中达到最先进的结果。
Previous works have shown that increasing the window size for Transformer-based image super-resolution models (e.g., SwinIR) can significantly improve the model performance. Still, the computation overhead is also considerable when the window size gradually increases. In this paper, we present SRFormer, a simple but novel method that can enjoy the benefit of large window self-attention but introduces even less computational burden. The core of our SRFormer is the permuted self-attention (PSA), which strikes an appropriate balance between the channel and spatial information for self-attention. Without any bells and whistles, we show that our SRFormer achieves a 33.86dB PSNR score on the Urban100 dataset, which is 0.46dB higher than that of SwinIR but uses fewer parameters and computations. In addition, we also attempt to scale up the model by further enlarging the window size and channel numbers to explore the potential of Transformer-based models. Experiments show that our scaled model, named SRFormerV2, can further improve the results and achieves state-of-the-art. We hope our simple and effective approach could be useful for future research in super-resolution model design. The homepage is https://z-yupeng.github.io/SRFormer/.
研究动机与目标
- 研究如何在不产生高计算成本的情况下扩展图像超分辨中的自注意力。
- 开发能有效利用大窗口的自注意力机制。
- 通过改进的前馈网络提升超分中的高频细节恢复。
- 设计一个轻量级的 SR 模型,保持或提升性能。
- 展示在真实世界降 degrad? 场景中的鲁棒性。
提出的方法
- 提出置换自注意力(PSA),通过降低 K/V 通道维度并将 Token 置换到通道中以实现大窗口注意力。
- 使用 Q 作为全通道,K/V 使用减少的通道并进行空间置换以保留空间信息。
- 通过在两个 FFN 线性层之间放置一个深度卷积来实现 ConvFFN,以改善高频细节恢复。
- 构建 SRFormer,包含像素嵌入层、基于 PSA 的分层特征编码器和重建头。
- 使用高分辨率输出的 L1 损失进行训练;结合自集成的 SRFormer+ 以提升性能。
实验结果
研究问题
- RQ1大窗口自注意力在不增加参数或 FLOPs 的情况下能否提升 SR 性能?
- RQ2将 Token 置换到通道中作为 K/V,是否能在 SR 中实现有效的大窗口注意力?
- RQ3在 FFN 中添加本地深度卷积(ConvFFN)是否提升高频细节恢复?
- RQ4SRFormer 与经典、轻量级和真实世界任务中的最先进 SR 方法相比如何?
主要发现
- SRFormer 结合 PSA 可实现强劲的 SR 性能,在 DIV2K 上训练时对 Urban100 的 2x SR 获得 33.86 dB PSNR,比 SwinIR 高出 0.46 dB。
- 使用 24x24 窗口的 SRFormer 参数量和 MACs 少于使用 8x8 窗口的 SwinIR,但仍提供更高的 PSNR。
- 具有 5x5 深度卷积的 ConvFFN 在测试的核大小中实现了最佳的高频恢复。
- 较大的 24x24 PSA 窗口在所有消融实验中均提升性能,优于减少 Token 或对 Token 进行采样的变体。
- SRFormer-light 在多数据集和尺度上的轻量级 SR 模型中达到最先进的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。