[論文レビュー] Dif-Fusion: Towards High Color Fidelity in Infrared and Visible Image Fusion with Diffusion Models
Dif-Fusion は拡散モデルを用いて赤外画像と可視画像から多チャンネル分布を学習し、カラー忠実度を直接保った3チャンネル出力の融合画像を多チャンネル損失とともに生成します。
Color plays an important role in human visual perception, reflecting the spectrum of objects. However, the existing infrared and visible image fusion methods rarely explore how to handle multi-spectral/channel data directly and achieve high color fidelity. This paper addresses the above issue by proposing a novel method with diffusion models, termed as Dif-Fusion, to generate the distribution of the multi-channel input data, which increases the ability of multi-source information aggregation and the fidelity of colors. In specific, instead of converting multi-channel images into single-channel data in existing fusion methods, we create the multi-channel data distribution with a denoising network in a latent space with forward and reverse diffusion process. Then, we use the the denoising network to extract the multi-channel diffusion features with both visible and infrared information. Finally, we feed the multi-channel diffusion features to the multi-channel fusion module to directly generate the three-channel fused image. To retain the texture and intensity information, we propose multi-channel gradient loss and intensity loss. Along with the current evaluation metrics for measuring texture and intensity fidelity, we introduce a new evaluation metric to quantify color fidelity. Extensive experiments indicate that our method is more effective than other state-of-the-art image fusion methods, especially in color fidelity.
研究の動機と目的
- 赤外画像と可視画像の融合における単一チャンネル後処理を超えたカラー忠実度の向上を動機付ける。
- 多チャンネル入力を潜在分布として扱い、赤外と可視の情報をより良く融合する拡散ベースのフレームワークを提案する。
- カラー空間変換を伴わずに三チャンネルの融合画像を直接生成しつつ、質感とカラーを保持する。
- 融合結果のカラー忠実度を定量化する新しい評価指標を導入する。
提案手法
- 赤外線 (1 チャンネル) を可視 (3 チャンネル) と連結して 4 チャンネル入力を作成し、その結合分布を拡散過程でモデル化する。
- 前方拡散を用いてガウスノイズを徐々に加え、逆拡散ネットワークでノイズを除去して多チャンネル潜在構造を学習する。
- denoising ネットワークから複数の拡散ステップにわたって多チャンネル拡散特徴を抽出し、赤外と可視情報を捉える。
- 多チャンネル拡張融合モジュールを介して拡散特徴を融合し、3 チャンネルの融合画像を出力する。
- 三チャンネル出力の質感と強度を導くために、多チャンネル勾配損失(LMCG)と多チャンネル強度損失(LMCI)を導入する。
実験結果
リサーチクエスチョン
- RQ1拡散モデルを用いて、画像融合のための赤外と可視データの多チャンネル分布をどのように構築できるか。
- RQ2拡散ベースの特徴が、色空間変換なしで高カラー忠実度の3チャンネル融合画像の直接生成を可能にするか。
- RQ3多チャンネル融合出力における質感、勾配、強度を保持するのに有効な損失は何か。
- RQ4提案手法は標準の赤外-可視融合データセットで最先端手法と比較してどのような性能を示すか。
主な発見
- 本手法は、公開データセット上でカラー忠実度の向上と質感・強度の保持を改善し、いくつかの最先端手法より優れた融合画像を得る。
- 拡散ベースのフレームワークは、色空間変換なしで直接3チャンネルの融合画像を生成できる。
- 新しい多チャンネル勾配損失と多チャンネル強度損失が、カラー正確でディテール豊かな出力へと融合を導く。
- 定性的・定量的分析から、カラー保持と知覚品質の利点が示される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。