[论文解读] CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion
CDDFuse 引入双分支 Transformer-CNN 编码器,并结合相关性驱动的损失,将基础特征(共享)与细节特征(特定)分解用于多模态图像融合,且在 IVF 和 MIF 任务上达到最先进性能。
Multi-modality (MM) image fusion aims to render fused images that maintain the merits of different modalities, e.g., functional highlight and detailed textures. To tackle the challenge in modeling cross-modality features and decomposing desirable modality-specific and modality-shared features, we propose a novel Correlation-Driven feature Decomposition Fusion (CDDFuse) network. Firstly, CDDFuse uses Restormer blocks to extract cross-modality shallow features. We then introduce a dual-branch Transformer-CNN feature extractor with Lite Transformer (LT) blocks leveraging long-range attention to handle low-frequency global features and Invertible Neural Networks (INN) blocks focusing on extracting high-frequency local information. A correlation-driven loss is further proposed to make the low-frequency features correlated while the high-frequency features uncorrelated based on the embedded information. Then, the LT-based global fusion and INN-based local fusion layers output the fused image. Extensive experiments demonstrate that our CDDFuse achieves promising results in multiple fusion tasks, including infrared-visible image fusion and medical image fusion. We also show that CDDFuse can boost the performance in downstream infrared-visible semantic segmentation and object detection in a unified benchmark. The code is available at https://github.com/Zhaozixiang1228/MMIF-CDDFuse.
研究动机与目标
- 通过分离模态共享信息和模态特定信息,推动对MMIF的跨模态特征建模的改进。
- 开发一个双分支编码器,结合全局(Transformer)与局部(CNN/INN)特征提取。
- 提出一个相关性驱动的损失,强制跨模态的基础特征相关、细节特征去相关。
- 通过基于 LT 的全局融合和基于 INN 的局部融合层实现高效融合。
- 在 IVF 和 MIF 基准上展示最先进性能,并展示对分割和检测等下游任务的收益。
提出的方法
- 使用基于 Restormer 的浅层特征提取来捕捉跨模态线索。
- 采用双分支长短程编码器:基础 Transformer 编码器(LT 块)用于低频基础特征,细节 CNN 编码器(INN 块)用于高频细节。
- 在细节路径中引入可逆神经网络(INN)以保留高频信息。
- 使用基于 LT 的基础特征融合和基于 INN 的细节融合。
- 分两阶段训练:阶段I 重建输入图像以引导特征分解;阶段II 使用分解后的特征进行融合。
- 采用一个相关性驱动的分解损失,鼓励基础特征高度相关,细节特征去相关:L_decomp = (CC(D_I,V))^2 / (CC(B_I,B_V) + ε)。
- 阶段II 损失包括图像重建/梯度项,以及用于引导融合输出质量的相同分解约束。
实验结果
研究问题
- RQ1如何通过显式将特征分解为模态共享的(基)和模态特定的(细节)组件来使MMIF受益?
- RQ2混合 Transformer-CNN 架构能否有效捕获 IVF 与 MIF 的全局与局部跨模态信息?
- RQ3相关性驱动的损失是否能提高基特征和细节特征的可分离性,从而提升融合质量?
- RQ4基于 LT 的全局融合和基于 INN 的局部融合在提高性能的同时是否保持了效率?
- RQ5CDDFuse 对下游任务(如红外可见语义分割和目标检测)的影响是什么?
主要发现
| EN | SD | SF | MI | SCD | VIF | Qbaf | SSIM |
|---|---|---|---|---|---|---|---|
| 6.70 | 43.38 | 11.56 | 3.47 | 1.62 | 1.05 | 0.69 | 1.00 |
| 7.44 | 54.67 | 16.36 | 2.30 | 1.81 | 0.69 | 0.52 | 0.98 |
| 7.44 | 54.67 | 16.36 | 2.30 | 1.81 | 0.77 | 0.54 | 0.98 |
- CDDFuse 在 IVF 基准(MSRS、RoadScene、TNO)上使用八个融合指标实现了最先进或具有竞争力的结果。
- 在 MSRS 上,CDDFuse 达到 EN=6.70, SD=43.38, SF=11.56, MI=3.47, SCD=1.62, VIF=1.05, Qbaf=0.69, SSIM=1.00。
- 在 RoadScene 上,CDDFuse 达到 EN=7.44, SD=54.67, SF=16.36, MI=2.30, SCD=1.81, VIF=0.69, Qbaf=0.52, SSIM=0.98。
- 在 TNO 上,CDDFuse 达到 EN=7.44, SD=54.67, SF=16.36, MI=2.30, SCD=1.81, VIF=0.69, Qbaf=0.52, SSIM=0.98。
- 消融研究验证了两阶段训练、LT+INN 组合以及基于相关性的分解损失的有效性。
- 将融合输出用于下游 MM 目标检测和语义分割时性能有所提升,表明不仅仅是融合质量的提升,还有实际应用的好处。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。