[论文解读] TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven Image Fusion Network
TSJNet 将红外与可见图像在分割与检测任务的双重引导下融合,达到更高的融合质量并改善下游检测/分割性能。
This study aims to address the problem of incomplete information in unimodal images for semantic segmentation and object detection tasks. Existing multimodal fusion methods suffer from limited capability in discriminative modeling of multi-scale semantic structures and salient target regions, which further restricts the effective fusion of task-related semantic details and target information across modalities. To tackle these challenges, this paper proposes a novel fusion network termed TSJNet, which leverages the semantic information output by high-level tasks in a joint manner to guide the fusion process. Specifically, we design a multi-dimensional feature extraction module with dual parallel branches to capture multi-scale and salient features. Meanwhile, a data-agnostic spatial attention module embedded in the decoder dynamically calibrates attention allocation across different data domains, significantly enhancing the model's generalization ability. To optimize both fusion and advanced visual tasks, we balance performance by combining fusion loss with semantic losses. Additionally, we have developed a multimodal unmanned aerial vehicle (UAV) dataset covering multiple scenarios (UMS). Extensive experiments demonstrate that TSJNet achieves outstanding performance on five public datasets (MSRS, M extsuperscript{3}FD, RoadScene, LLVIP, and TNO) and our UMS dataset. The generated fusion results exhibit favorable visual effects, and compared to state-of-the-art methods, the mean average precision (mAP@0.5) and mean intersection over union (mIoU) for object detection and segmentation, respectively, improve by 7.97\% and 10.88\%.The code and the dataset has been publicly released at https://github.com/XylonXu01/TSJNet.
研究动机与目标
- 通过利用下游任务的高层语义和目标信息,推动改进的MMIF。
- 开发一个由分割和检测引导的融合网络,以增强跨模态特征的整合。
- 设计一个高效的特征提取器和融合方案,捕捉局部和全局的跨模态细节。
- 引入使融合与下游分割和检测性能对齐的损失函数。
提出的方法
- 基于 ResNeSt 块的编码器,用于从红外图像和可见图像提取跨模态特征。
- 局部显著特征(LSM)融合层,包含包括邻域注意力变换器(NAT)和细节显著性模块(DSM)的双分支,以捕捉局部/全局细节。
- 解码器采用基于 ResNeSt 的结构,带有元学习启发的空间注意力用于跨模态信息传输。
- 联合优化融合质量、目标检测和语义分割的损失(多方面融合损失、检测损失、分割损失)。
- 从 DeepLabV3+ 集成语义损失,以在融合输出中强制语义一致性。
- 给定方程包括统一目标 L_all = L_MFF + L_Det + L_Seg,且 L_MFF 由 L_div、L_ssim 和 L_mse 组成。
实验结果
研究问题
- RQ1来自检测和分割的多任务引导是否能提升多模态图像融合的质量,相较于单任务融合模型?
- RQ2所提出的局部显著特征提取模块是否能增强跨模态特征交互及下游任务性能?
- RQ3将融合与检测和分割损失联合优化对下游目标检测和语义分割的影响是什么?
- RQ4在多个公开数据集(MSRS、M3FD、RoadScene、LLVIP)上,TSJNet 相对于最先进的融合方法的表现如何?
主要发现
| 方法 | SSIM | PSNR | MSE | VIF | CC | CV |
|---|---|---|---|---|---|---|
| ReC | 0.30 | 16.38 | 2005.55 | 0.31 | 0.56 | 319.06 |
| CDD | 0.68 | 16.23 | 2437.54 | 0.44 | 0.60 | 230.35 |
| LRR | 0.59 | 16.61 | 2039.84 | 0.33 | 0.51 | 613.42 |
| TarD | 0.46 | 16.99 | 1941.00 | 0.34 | 0.46 | 2342.74 |
| IGN | 0.56 | 17.22 | 1811.24 | 0.32 | 0.65 | 903.80 |
| Sup | 0.50 | 14.05 | 4717.51 | 0.24 | 0.27 | 1667.85 |
| DIV | 0.34 | 8.51 | 9613.72 | 0.18 | 0.57 | 1364.19 |
| TSJNet | 0.69 | 18.13 | 1502.60 | 0.62 | 344.20 | |
| ReC | 0.67 | 14.11 | 2989.60 | 0.33 | 0.51 | 496.54 |
| CDD | 0.69 | 13.04 | 4035.47 | 0.37 | 0.52 | 501.84 |
| LRR | 0.70 | 14.48 | 2722.86 | 0.36 | 0.53 | 678.53 |
| TarD | 0.68 | 13.74 | 3385.62 | 0.39 | 0.44 | 1271.50 |
| IGN | 0.58 | 12.11 | 4649.93 | 0.24 | 0.52 | 1020.07 |
| Sup | 0.69 | 12.98 | 4019.42 | 0.40 | 0.47 | 598.91 |
| DIV | 0.59 | 10.44 | 6362.27 | 0.25 | 0.68 | 645.38 |
| TSJNet | 0.70 | 14.63 | 2714.86 | 0.33 | 0.53 | 524.41 |
| ReC | 0.72 | 15.40 | 2404.92 | 0.32 | 0.62 | 460.00 |
| CDD | 0.67 | 14.03 | 3077.02 | 0.25 | 0.63 | 426.30 |
| LRR | 0.58 | 11.82 | 4401.71 | 0.24 | 0.62 | 629.70 |
| TarD | 0.69 | 14.82 | 2603.71 | 0.31 | 0.58 | 1255.83 |
| IGN | 0.52 | 10.31 | 6693.45 | 0.28 | 0.60 | 1033.15 |
| Sup | 0.74 | 14.51 | 2928.35 | 0.34 | 0.60 | 420.00 |
| DIV | 0.61 | 13.86 | 3033.92 | 0.19 | 0.62 | 907.78 |
| TSJNet | 0.70 | 14.52 | 2544.58 | 0.33 | 0.64 | 516.82 |
| ReC | 0.42 | 14.64 | 2281.86 | 0.30 | 0.69 | 302.05 |
| CDD | 0.64 | 14.58 | 2315.02 | 0.41 | 0.68 | 332.29 |
| LRR | 0.59 | 15.93 | 1688.62 | 0.39 | 0.68 | 580.90 |
| TarD | 0.56 | 14.33 | 2508.97 | 0.41 | 0.65 | 1095.24 |
| IGN | 0.55 | 14.97 | 2137.50 | 0.24 | 0.68 | 638.59 |
| Sup | 0.64 | 14.62 | 2306.66 | 0.38 | 0.68 | 360.89 |
| DIV | 0.46 | 10.44 | 6362.27 | 0.25 | 0.68 | 645.38 |
| TSJNet | 0.64 | 15.97 | 1697.69 | 0.37 | 0.67 | 457.46 |
- TSJNet 在基准数据集上相较于七种 SOTA 方法,在目标检测下游 mAP@0.5 和分割下游 mIoU 方面取得更高的表现,平均提升分别为 2.84% 和 7.47%。
- 在 MSRS、M3FD、RoadScene 和 LLVIP 上,TSJNet 在多个基线下提供更优的融合指标(SSIM、PSNR、MSE、VIF、CC、CV)。
- 消融研究表明 DSM 以及双重检测/分割损失显著提升融合质量和下游任务性能。
- 融合输出更好地保留边缘和纹理,使在具有挑战性的场景中实现更鲁棒的检测和更精确的分割。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。