Skip to main content
QUICK REVIEW

[论文解读] SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and Improved Training for Image Super-Resolution

Dafeng Zhang, Feiyu Huang|arXiv (Cornell University)|Aug 24, 2022
Advanced Optical Sensing Technologies被引用 72
一句话总结

SwinFIR 通过引入基于 Fast Fourier Convolution 的 Spatial Frequency Block 来捕捉全局信息,同时结合数据增强和特征集成,在图像超分辨率方面达到最先进的结果。

ABSTRACT

Transformer-based methods have achieved impressive image restoration performance due to their capacities to model long-range dependency compared to CNN-based methods. However, advances like SwinIR adopts the window-based and local attention strategy to balance the performance and computational overhead, which restricts employing large receptive fields to capture global information and establish long dependencies in the early layers. To further improve the efficiency of capturing global information, in this work, we propose SwinFIR to extend SwinIR by replacing Fast Fourier Convolution (FFC) components, which have the image-wide receptive field. We also revisit other advanced techniques, i.e, data augmentation, pre-training, and feature ensemble to improve the effect of image reconstruction. And our feature ensemble method enables the performance of the model to be considerably enhanced without increasing the training and testing time. We applied our algorithm on multiple popular large-scale benchmarks and achieved state-of-the-art performance comparing to the existing methods. For example, our SwinFIR achieves the PSNR of 32.83 dB on Manga109 dataset, which is 0.8 dB higher than the state-of-the-art SwinIR method.

研究动机与目标

  • 通过在早期层面利用全局信息来推动图像超分辨率的提升。
  • 设计一个全局特征提取器,将 Fast Fourier Convolution 与局部 CNN 特征集成。
  • 探索训练阶段的改进(损失函数、数据增强、预训练)以提升 SR 性能。
  • 提出一个零成本的后处理集成,以在不增加额外训练或推理时间的情况下提升结果。

提出的方法

  • 用 Spatial Frequency Block (SFB) 替换深层特征提取中的 SwinIR 卷积,SFB 将空间 CNN 路径与频域 FFT 路径结合。
  • 在频率分支中使用 Fast Fourier Convolution (FFC) 来捕捉全局信息,并与残余空间路径融合。
  • 采用 Charbonnier 损失函数取代 L1/L2,以提升训练稳定性和性能。
  • 应用像素域数据增强(通道置换、Mixup 等)以提升泛化能力。
  • 引入一个特征集成后处理技术,在不增加训练/测试时间的情况下对多个训练模型进行集成。

实验结果

研究问题

  • RQ1Spatial Frequency Block 是否能在超分中有效捕捉全局信息并超越纯局部窗口的变换器?
  • RQ2像通道置换和 Mixup 这样的数据增强策略在此设定中是否显著提升了 SR 性能?
  • RQ3零成本特征集成是否在不同数据集上无需额外计算就能稳定提升 SR 结果?
  • RQ4在使用预训练和更大窗口的情况下,SwinFIR 与 SwinIR 和 EDT 在标准 SR 基准上如何比较?

主要发现

  • SwinFIR 在 Manga109 上实现了 32.83 dB 的 PSNR,比最先进的 SwinIR 方法高出 0.80 dB。
  • 在 Manga109 和 Urban100 的综合表现中,SwinFIR 在 PSNR 上比 SwinIR 提升约 0.30 到 0.80 dB,且比 EDT 提升约 0.24 到 0.44 dB。
  • SwinFIR-T(轻量级变体)在 Manga109 上达到 31.50 dB PSNR,参数量与 SwinIR/EDT-T 相当,分别超出它们 0.58 dB 和 0.15 dB。
  • 所提出的数据增强(如通道置换、Mixup)和特征集成后处理在不增加训练/测试时间的情况下带来显著提升。
  • SwinFIR 及其立体 SR 变体 SwinFIRSSR 在经典、轻量级和立体 SR 基准测试中展现出强劲表现,涵盖 KITTI、Middlebury 和 Flickr1024 数据集。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。