[论文解读] Spatial-Frequency Attention for Image Denoising
SFANet 将基于窗口的空间自注意力与基于窗口的频率通道注意力结合在 UNet 风格骨干中,使用膨胀自注意力和基于 FFT 的频率建模来捕捉长距离依赖以进行图像去噪。
The recently developed transformer networks have achieved impressive performance in image denoising by exploiting the self-attention (SA) in images. However, the existing methods mostly use a relatively small window to compute SA due to the quadratic complexity of it, which limits the model's ability to model long-term image information. In this paper, we propose the spatial-frequency attention network (SFANet) to enhance the network's ability in exploiting long-range dependency. For spatial attention module (SAM), we adopt dilated SA to model long-range dependency. In the frequency attention module (FAM), we exploit more global information by using Fast Fourier Transform (FFT) by designing a window-based frequency channel attention (WFCA) block to effectively model deep frequency features and their dependencies. To make our module applicable to images of different sizes and keep the model consistency between training and inference, we apply window-based FFT with a set of fixed window sizes. In addition, channel attention is computed on both real and imaginary parts of the Fourier spectrum, which further improves restoration performance. The proposed WFCA block can effectively model image long-range dependency with acceptable complexity. Experiments on multiple denoising benchmarks demonstrate the leading performance of SFANet network.
研究动机与目标
- 提升对图像去噪中长距离依赖的建模能力,超越小窗口自注意力。
- 提出基于窗口的频率通道注意力(WFCA),以利用全局频率信息。
- 在浅层特征中结合空间注意力与膨胀自注意力以扩大感受野。
- 通过 WFCA 块中的窗口化 FFT 保证训练/推理的尺寸无关性。
- 在多个去噪基准上展示领先性能。
提出的方法
- 提出 SFANet,包含两个模块:空间注意力模块(SAM)和频率注意力模块(FAM)。
- SAM 使用基于窗口的自注意力 plus 多尺度膨胀自注意力(MDSA)块,在早期尺度扩大感受野。
- FAM 引入基于窗口的频率通道注意力(WFCA),对非重叠补丁应用 FFT,并对实部和虚部的傅里叶分量进行通道注意力。
- WFCA 通过对固定大小的补丁执行 FFT 来确保训练/推理的频率分辨率一致性。
- 将复值频率特征通过串联的实部+虚部通道注意力机制处理,并进行逆 FFT 以重建补丁。
- 整体损失为 Charbonnier;训练使用带四个尺度和跳连路的 UNet 骨干;最终重建使用 3x3 卷积。
实验结果
研究问题
- RQ1基于窗口的和膨胀自注意力是否能够有效捕捉超过小窗口的去噪长距离空间依赖?
- RQ2将 FFT 基于的频域注意力与实部和虚部结合,是否能比仅使用空间/自注意力的方法带来更好的恢复?
- RQ3基于窗口的 WFCA 块在不同图像大小下是否能够维持性能且无频率分辨率不匹配?
- RQ4与最新的去噪方法相比,SFANet 在标准基准数据集上的表现如何?
主要发现
- SFANet 在多个去噪基准上相较于最新方法取得领先性能。
- WFCA 通过使用较大 FFT 窗(例如 64x64)来利用全局频率信息,且具有可接受的计算复杂度。
- 使用傅里叶光谱的实部和虚部进行通道注意力,相较仅使用实部能提升恢复性能。
- 在 SAM 中的膨胀自注意力在不呈现平方级计算增长的情况下扩展了感受野,从而改善长距离建模。
- 基于 UNet 的骨干结合 SAM 与 FAM,优于多种基于 SA 的和非局部去噪模型,包括 Restormer 和 SwinIR,在基准数据集上表现更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。