[论文解读] Vision Transformers for Single Image Dehazing
本文提出 DehazeFormer,基于 Vision Transformer 的单图去雾网络,包含归一化、激活与聚合的修改,在 SOTS indoor 上实现了最先进的 PSNR,并提出 RS-Haze 用于非均匀雾霾评估。
Image dehazing is a representative low-level vision task that estimates latent haze-free images from hazy images. In recent years, convolutional neural network-based methods have dominated image dehazing. However, vision Transformers, which has recently made a breakthrough in high-level vision tasks, has not brought new dimensions to image dehazing. We start with the popular Swin Transformer and find that several of its key designs are unsuitable for image dehazing. To this end, we propose DehazeFormer, which consists of various improvements, such as the modified normalization layer, activation function, and spatial information aggregation scheme. We train multiple variants of DehazeFormer on various datasets to demonstrate its effectiveness. Specifically, on the most frequently used SOTS indoor set, our small model outperforms FFA-Net with only 25% #Param and 5% computational cost. To the best of our knowledge, our large model is the first method with the PSNR over 40 dB on the SOTS indoor set, dramatically outperforming the previous state-of-the-art methods. We also collect a large-scale realistic remote sensing dehazing dataset for evaluating the method's capability to remove highly non-homogeneous haze.
研究动机与目标
- 推动在单幅图像去雾中使用视觉 Transformer,解决 Swin Transformer 在雾霾图像中的设计选择的不足。
- 开发 DehazeFormer,具备针对去雾任务的归一化、激活和空间聚合改进。
- 在标准数据集上展示优越性能,并引入一个新的现实世界遥感雾霾数据集(RS-Haze)。
提出的方法
- 用 RescaleNorm 替代 LayerNorm,以保留补丁关系信息。
- 使用简单、可逆的激活函数(SoftReLU),替代 GELU/Softplus。
- 采用带反射填充的移位窗口划分以稳定边缘区域。
- 结合带 W-MHSA 的并行卷积,以增强比标准 MHSA 更丰富的空间聚合。
- 引入基于先验的软重建模块和受 SKNet 启发的融合,以替代简单拼接和全局残差。
- 在类 U-Net 架构中构建多个 DehazeFormer 变体,并在成对的雾霾-清晰图像上使用 L1 损失进行训练。
- 通过一个考虑波长、密度和非均匀雾霾的物理信息驱动的雾模型来合成 RS-Haze 数据集,含遥感焦点。
实验结果
研究问题
- RQ1视觉 Transformer 是否能在标准基准和遥感雾霾任务上超过基于 CNN 的去雾网络?
- RQ2在使用 Transformer 回路时,哪些架构和归一化选择对去雾最有利?
- RQ3基于先验的软重建和 SK 融合是否在去雾质量上优于全局残差学习?
- RQ4大规模、现实的 RS-Haze 数据集在评估非均匀雾霾去除方面的有效性如何?
主要发现
- 小型 DehazeFormer 在参数量仅为 25%,计算成本仅为 5% 的情况下,达到 FFA-Net 的竞争力。
- 大型 DehazeFormer 模型在 SOTS indoor 集上实现 PSNR 超过 40 dB,优于此前的最先进方法。
- DehazeFormer 的变体在 RESIDE 与 RS-Haze 实验中以更低开销超越同期方法。
- RS-Haze 提供了一个大规模、现实的遥感去雾数据集,用于评估非均匀雾霾去除。
- 从零开始的实验证明 LayerNorm 对去雾有害;RescaleNorm 和可逆激活函数提升了结果。
- 带反射填充的移位窗口和并行卷积(W-MHSA)提升了边缘处理和高频细节。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。