Skip to main content
QUICK REVIEW

[论文解读] ATFusion: An Alternate Cross-Attention Transformer Network for Infrared and Visible Image Fusion

Han Yan, Songlei Xiong|arXiv (Cornell University)|Jan 22, 2024
Advanced Image Fusion Techniques被引用 8
一句话总结

ATFuse 引入 discrepancy 和 common information injection 模块到 Transformer 基于 IV 图像融合框架中,配合分割像素损失以平衡纹理和显著结构,实现更优的融合性能。

ABSTRACT

The fusion of infrared and visible images is essential in remote sensing applications, as it combines the thermal information of infrared images with the detailed texture of visible images for more accurate analysis in tasks like environmental monitoring, target detection, and disaster management. The current fusion methods based on Transformer techniques for infrared and visible (IV) images have exhibited promising performance. However, the attention mechanism of the previous Transformer-based methods was prone to extract common information from source images without considering the discrepancy information, which limited fusion performance. In this paper, by reevaluating the cross-attention mechanism, we propose an alternate Transformer fusion network (ATFusion) to fuse IV images. Our ATFusion consists of one discrepancy information injection module (DIIM) and two alternate common information injection modules (ACIIM). The DIIM is designed by modifying the vanilla cross-attention mechanism, which can promote the extraction of the discrepancy information of the source images. Meanwhile, the ACIIM is devised by alternately using the vanilla cross-attention mechanism, which can fully mine common information and integrate long dependencies. Moreover, the successful training of ATFusion is facilitated by a proposed segmented pixel loss function, which provides a good trade-off for texture detail and salient structure preservation. The qualitative and quantitative results on public datasets indicate our ATFusion is effective and superior compared to other state-of-the-art methods.

研究动机与目标

  • 通过显式处理红外与可见模态之间的差异信息,推动改进的 IV 图像融合。
  • 提出一种替代的 Transformer 融合网络(ATFuse),具有专门的模块来提取差异信息和共同信息。
  • 开发一种分割像素损失,以在保留纹理细节和显著结构之间取得平衡。
  • 在公开 IV 数据集上展示优越的定性与定量融合性能。

提出的方法

  • 为 IV 图像融合引入特征提取、融合和重建的流程。
  • 通过修改 cross-attention 机制以捕获差异信息,开发差异信息注入模块(DIIM)。
  • 开发替代的共同信息注入模块(ACIIM),在模态之间交替融合并强化共同信息。
  • 使用两阶段的 DIIM + ACIIM 融合方案,以最大化长程关系和模态特异细节。
  • 使用分割像素损失,对最显著像素与较不显著区域应用不同约束,以保留纹理和亮度。

实验结果

研究问题

  • RQ1如何对 cross-attention 进行改编,以提取红外与可见图像在融合中的差异信息?
  • RQ2交替信息注入策略是否能更好地在模态之间保持共同信息和长程依赖?
  • RQ3分割像素损失是否改善融合 IV 图像中显著细节和纹理的保持?
  • RQ4ATFuse 在公开数据集上相对于最先进的 Transformer 和 CNN 基于的 IV 融合方法的表现如何?

主要发现

  • 搭载 DIIM 与 ACIIM 的 ATFuse 在融合图像中比若干最先进方法更好地保留了显著的红外信息和纹理细节。
  • 分割像素损失在跨数据集上实现了显著信息保留与纹理保持之间的平衡权衡。
  • 消融研究表明 DIIM 与 ACIIM 都有助于性能提升,完整的 ATFuse 结构优于缺失任一模块的变体。
  • 在 RoadScene、MSRS 和 TNO 数据集上的定量结果在梯度基准和信息论等多项指标上显示出优越的客观指标。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。