QUICK REVIEW

[论文解读] CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion

Zixiang Zhao, Haowen Bai|arXiv (Cornell University)|Nov 26, 2022

Advanced Image Fusion Techniques被引用 23

一句话总结

CDDFuse 引入双分支 Transformer-CNN 编码器，并结合相关性驱动的损失，将基础特征（共享）与细节特征（特定）分解用于多模态图像融合，且在 IVF 和 MIF 任务上达到最先进性能。

ABSTRACT

Multi-modality (MM) image fusion aims to render fused images that maintain the merits of different modalities, e.g., functional highlight and detailed textures. To tackle the challenge in modeling cross-modality features and decomposing desirable modality-specific and modality-shared features, we propose a novel Correlation-Driven feature Decomposition Fusion (CDDFuse) network. Firstly, CDDFuse uses Restormer blocks to extract cross-modality shallow features. We then introduce a dual-branch Transformer-CNN feature extractor with Lite Transformer (LT) blocks leveraging long-range attention to handle low-frequency global features and Invertible Neural Networks (INN) blocks focusing on extracting high-frequency local information. A correlation-driven loss is further proposed to make the low-frequency features correlated while the high-frequency features uncorrelated based on the embedded information. Then, the LT-based global fusion and INN-based local fusion layers output the fused image. Extensive experiments demonstrate that our CDDFuse achieves promising results in multiple fusion tasks, including infrared-visible image fusion and medical image fusion. We also show that CDDFuse can boost the performance in downstream infrared-visible semantic segmentation and object detection in a unified benchmark. The code is available at https://github.com/Zhaozixiang1228/MMIF-CDDFuse.

研究动机与目标

通过分离模态共享信息和模态特定信息，推动对MMIF的跨模态特征建模的改进。
开发一个双分支编码器，结合全局（Transformer）与局部（CNN/INN）特征提取。
提出一个相关性驱动的损失，强制跨模态的基础特征相关、细节特征去相关。
通过基于 LT 的全局融合和基于 INN 的局部融合层实现高效融合。
在 IVF 和 MIF 基准上展示最先进性能，并展示对分割和检测等下游任务的收益。

提出的方法

使用基于 Restormer 的浅层特征提取来捕捉跨模态线索。
采用双分支长短程编码器：基础 Transformer 编码器（LT 块）用于低频基础特征，细节 CNN 编码器（INN 块）用于高频细节。
在细节路径中引入可逆神经网络（INN）以保留高频信息。
使用基于 LT 的基础特征融合和基于 INN 的细节融合。
分两阶段训练：阶段I 重建输入图像以引导特征分解；阶段II 使用分解后的特征进行融合。
采用一个相关性驱动的分解损失，鼓励基础特征高度相关，细节特征去相关：L_decomp = (CC(D_I,V))^2 / (CC(B_I,B_V) + ε)。
阶段II 损失包括图像重建/梯度项，以及用于引导融合输出质量的相同分解约束。

实验结果

研究问题

RQ1如何通过显式将特征分解为模态共享的（基）和模态特定的（细节）组件来使MMIF受益？
RQ2混合 Transformer-CNN 架构能否有效捕获 IVF 与 MIF 的全局与局部跨模态信息？
RQ3相关性驱动的损失是否能提高基特征和细节特征的可分离性，从而提升融合质量？
RQ4基于 LT 的全局融合和基于 INN 的局部融合在提高性能的同时是否保持了效率？
RQ5CDDFuse 对下游任务（如红外可见语义分割和目标检测）的影响是什么？

主要发现

EN	SD	SF	MI	SCD	VIF	Qbaf	SSIM
6.70	43.38	11.56	3.47	1.62	1.05	0.69	1.00
7.44	54.67	16.36	2.30	1.81	0.69	0.52	0.98
7.44	54.67	16.36	2.30	1.81	0.77	0.54	0.98

CDDFuse 在 IVF 基准（MSRS、RoadScene、TNO）上使用八个融合指标实现了最先进或具有竞争力的结果。
在 MSRS 上，CDDFuse 达到 EN=6.70, SD=43.38, SF=11.56, MI=3.47, SCD=1.62, VIF=1.05, Qbaf=0.69, SSIM=1.00。
在 RoadScene 上，CDDFuse 达到 EN=7.44, SD=54.67, SF=16.36, MI=2.30, SCD=1.81, VIF=0.69, Qbaf=0.52, SSIM=0.98。
在 TNO 上，CDDFuse 达到 EN=7.44, SD=54.67, SF=16.36, MI=2.30, SCD=1.81, VIF=0.69, Qbaf=0.52, SSIM=0.98。
消融研究验证了两阶段训练、LT+INN 组合以及基于相关性的分解损失的有效性。
将融合输出用于下游 MM 目标检测和语义分割时性能有所提升，表明不仅仅是融合质量的提升，还有实际应用的好处。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。