[论文解读] Dual Aggregation Transformer for Image Super-Resolution
本论文介绍 Dual Aggregation Transformer (DAT) 用于图像超分辨率,交替空间和通道自注意力,具有自适应交互和空间门控 FFN,以实现强大的跨块和块内特征聚合,优于现有方法。
Transformer has recently gained considerable popularity in low-level vision tasks, including image super-resolution (SR). These networks utilize self-attention along different dimensions, spatial or channel, and achieve impressive performance. This inspires us to combine the two dimensions in Transformer for a more powerful representation capability. Based on the above idea, we propose a novel Transformer model, Dual Aggregation Transformer (DAT), for image SR. Our DAT aggregates features across spatial and channel dimensions, in the inter-block and intra-block dual manner. Specifically, we alternately apply spatial and channel self-attention in consecutive Transformer blocks. The alternate strategy enables DAT to capture the global context and realize inter-block feature aggregation. Furthermore, we propose the adaptive interaction module (AIM) and the spatial-gate feed-forward network (SGFN) to achieve intra-block feature aggregation. AIM complements two self-attention mechanisms from corresponding dimensions. Meanwhile, SGFN introduces additional non-linear spatial information in the feed-forward network. Extensive experiments show that our DAT surpasses current methods. Code and models are obtainable at https://github.com/zhengchen1999/DAT.
研究动机与目标
- 通过同时利用空间和通道上下文来激发并解决 SR 中单维自注意力的局限性。
- 提出一个跨越块间和块内层次的双聚合框架,以融合空间和通道信息。
- 开发自适应交互和空间门控 FFN 模块,以增强块内特征融合和局部性。
- 相较于先前方法,在可控的模型规模和计算量下展示出改进的 SR 性能。
提出的方法
- 在连续的 Transformer 块之间交替使用空间窗口自注意力 (SW-SA) 和通道自注意力 (CW-SA),以实现块间特征聚合。
- 引入 Adaptive Interaction Module (AIM),通过 Spatial-Interaction (S-I) 和 Channel-Interaction (C-I) 融合空间和通道分支,实现自适应跨分支信息交换。
- 开发来自 AIM 的自适应空间自注意力 (AS-SA) 和自适应通道自注意力 (AC-SA),以改进全局与局部特征之间的耦合。
- 通过 Spatial-Gate Feed-Forward Network (SGFN) 的块内增强,在 FFN 层之间添加空间门控,以注入非线性空间信息,同时降低通道冗余。
- 提供两个 DAT 变体:较轻量的 DAT-S 和较大规模的 DAT,在深度、窗口大小和扩张因子上有所不同。
- 在 DIV2K/Flickr2K 上对 SR 放大因子 x2、x3、x4 进行训练与评估;并以 PSNR/SSIM 指标与最新方法进行对比。
实验结果
研究问题
- RQ1在 Transformer 块中交替使用空间自注意力和通道自注意力是否能够通过捕捉全局空间与通道上下文来提升 SR?
- RQ2分支之间的自适应交互(AIM)是否比简单并行分支产生更优的特征融合?
- RQ3在 FFN 中引入空间门控(SGFN)是否在不带来过高成本的情况下增强块内特征聚合?
- RQ4在标准基准测试中,DAT-S 与 DAT 在 PSNR/SSIM 方面相较现有 SR 方法表现如何?
主要发现
- DAT 及其自我集成变体 DAT+ 在多个放大因子下的标准基准上优于当代 SR 方法。
- 定量结果显示在 PSNR/SSIM 提升方面与最先进方法相当,例如 Set5 x2: DAT+ PSNR 38.63 dB 和 SSIM 0.9631;x3: 35.19 dB 和 0.9334;x4: 33.15 dB 和 0.9062(数值见 Table 2)。
- 消融研究验证交替使用 SW-SA 和 CW-SA(块间聚合)、AIM(块内融合)和 SGFN(FFN 中的空间信息)的有效性。
- DAT-S(较轻量变体)在保持较低复杂度和模型规模的同时,实现了可比甚至更好的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。