Skip to main content
QUICK REVIEW

[论文解读] Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image Fusion with Diffusion Models

Jun Yue, Leyuan Fang|arXiv (Cornell University)|Jan 19, 2023
Advanced Image Fusion Techniques被引用 15
一句话总结

Dif-Fusion 利用扩散模型从红外与可见图像中学习多通道分布,直接生成带有多通道损失的色彩保真融合图像。

ABSTRACT

Color plays an important role in human visual perception, reflecting the spectrum of objects. However, the existing infrared and visible image fusion methods rarely explore how to handle multi-spectral/channel data directly and achieve high color fidelity. This paper addresses the above issue by proposing a novel method with diffusion models, termed as Dif-Fusion, to generate the distribution of the multi-channel input data, which increases the ability of multi-source information aggregation and the fidelity of colors. In specific, instead of converting multi-channel images into single-channel data in existing fusion methods, we create the multi-channel data distribution with a denoising network in a latent space with forward and reverse diffusion process. Then, we use the the denoising network to extract the multi-channel diffusion features with both visible and infrared information. Finally, we feed the multi-channel diffusion features to the multi-channel fusion module to directly generate the three-channel fused image. To retain the texture and intensity information, we propose multi-channel gradient loss and intensity loss. Along with the current evaluation metrics for measuring texture and intensity fidelity, we introduce a new evaluation metric to quantify color fidelity. Extensive experiments indicate that our method is more effective than other state-of-the-art image fusion methods, especially in color fidelity.

研究动机与目标

  • 推动红外与可见图像融合在超越单通道后处理方面的色彩保真改进。
  • 提出一个基于扩散的框架,将多通道输入视为潜在分布,以更好地融合来自红外和可见源的信息。
  • 在不进行色彩空间变换的情况下直接生成三通道融合图像,同时保留纹理和色彩。
  • 引入新的评估指标以量化融合结果中的色彩保真度。

提出的方法

  • 将红外(1 通道)与可见(3 通道)拼接形成 4 通道输入,并使用扩散过程建模其联合分布。
  • 使用前向扩散逐步加入高斯噪声,及反向扩散网络来去噪并学习多通道潜在结构。
  • 在多次扩散步骤中从去噪网络提取多通道扩散特征,以捕捉红外和可见信息。
  • 通过多通道融合模块对扩散特征进行融合,输出三通道融合图像。
  • 引入多通道梯度损失(LMCG)和多通道强度损失(LMCI),以引导三通道输出的纹理与强度保留。

实验结果

研究问题

  • RQ1如何使用扩散模型来构建多通道红外与可见数据的分布以实现图像融合?
  • RQ2基于扩散的特征是否能够在不进行色彩空间转换的情况下直接生成高色彩保真度的三通道融合图像?
  • RQ3哪些损失在多通道融合输出中对保留纹理、梯度和强度最有效?
  • RQ4与最先进方法相比,所提方法在标准红外-可见融合数据集上的表现如何?

主要发现

  • 该方法在公开数据集上生成的融合图像在色彩保真度方面有所提升,且对纹理与强度的保留优于若干前沿方法。
  • 基于扩散的框架可以直接生成三通道融合图像,无需进行色彩空间变换。
  • 新的多通道梯度损失和多通道强度损失引导融合朝向色彩准确、细节丰富的输出。
  • 定性与定量分析均指示在色彩保留和感知质量方面的优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。