[論文レビュー] Infrared and Visible Image Fusion with Language-Driven Loss in CLIP Embedding Space
CLIPベースの言語駆動オブジェクティブを赤外-可視画像融合に導入し、CLIP空間で言語表現された融合モデルと融合出力を整合させることで、グラウンド-truth supervisionなしで融合品質を向上させる。
Infrared-visible image fusion (IVIF) has attracted much attention owing to the highly-complementary properties of the two image modalities. Due to the lack of ground-truth fused images, the fusion output of current deep-learning based methods heavily depends on the loss functions defined mathematically. As it is hard to well mathematically define the fused image without ground truth, the performance of existing fusion methods is limited. In this paper, we propose to use natural language to express the objective of IVIF, which can avoid the explicit mathematical modeling of fusion output in current losses, and make full use of the advantage of language expression to improve the fusion performance. For this purpose, we present a comprehensive language-expressed fusion objective, and encode relevant texts into the multi-modal embedding space using CLIP. A language-driven fusion model is then constructed in the embedding space, by establishing the relationship among the embedded vectors representing the fusion objective and input image modalities. Finally, a language-driven loss is derived to make the actual IVIF aligned with the embedded language-driven fusion model via supervised training. Experiments show that our method can obtain much better fusion results than existing techniques. The code is available at https://github.com/wyhlaowang/LDFusion.
研究の動機と目的
- 自然言語で融合 goals を表現して明示的な数学的損失設計を避けることで、赤外-可視画像融合(IVIF)を動機づける。
- 入力モダリティと融合目的を共有埋め込み空間に符号化するためにCLIPを活用する。
- 言語駆動型融合モデルと、それに対応する損失を提案し、実際の融合と言語で記述されたターゲットを整合させる。
提案手法
- CLIP画像エンコーダを用いて赤外と可視の入力を埋め込みベクトルとして得る。
- 入力と望ましい融合を記述する言語プロンプトをCLIPテキストエンコーダで符号化して、言語駆動型融合モデルを形成する。
- ΔV(デルタベクトル)の並行性を介して埋め込み空間で入力から目標への遷移を整合させる言語駆動型融合損失を定義する。
- 局所ガイダンスのための融合方向損失のマルチスケール、パッチベース版を導入(L_d^†)。
- 融合された埋め込みがソース埋め込み(Φ)へ崩壊するのを防ぐ正則化項を追加する。
- コンテンツを保持し、望ましくない内容を抑制するためにVGG-19特徴量ベースの特徴忠実性損失(L_v)を含める。
- 2系統エンコーダ、クロス融合アテンション、デコーダを備えた3コンポーネントの融合ネットワークを訓練して融合画像を生成する。
実験結果
リサーチクエスチョン
- RQ1CLIP空間で言語表現されたオブジェクティブが、ground-truthの融合画像なしで赤外-可視画像融合をガイドできるのか?
- RQ2実際の融合遷移を言語駆動型埋め込みモデルと整合させることは、データセットと指標をまたいで融合品質を改善するのか?
- RQ3クロス融合アテンションと言語駆動損失が、顕著な対象と背景の詳細を維持する上でどのような影響を与えるか?
- RQ4標準的な融合評価指標の下で、提案手法は最先端IVIF法と比較してどの程度の性能を示すか?
主な発見
| 指標 | FusionGAN | MFEIF | PIAFusion | PMGI | RFN | SwinFusion | U2Fusion | UMF | GANMcC | Ours |
|---|---|---|---|---|---|---|---|---|---|---|
| EN | 6.550 | 6.749 | 6.929 | 7.058 | 7.086 | 6.908 | 7.035 | 6.629 | 6.791 | 7.335 |
| AG | 3.069 | 3.685 | 6.029 | 4.616 | 3.066 | 5.801 | 6.430 | 4.113 | 3.395 | 9.878 |
| SD | 30.487 | 33.827 | 41.400 | 38.707 | 40.224 | 39.735 | 37.894 | 30.817 | 34.162 | 51.502 |
| SF | 3.922 | 4.345 | 6.291 | 5.232 | 3.837 | 6.166 | 6.787 | 4.674 | 4.082 | 8.365 |
| VIFF | 0.265 | 0.376 | 0.405 | 0.593 | 0.575 | 0.451 | 0.699 | 0.359 | 0.433 | 0.751 |
- データセット(TNOとRoadScene)と指標(EN, AG, SD, SF, VIFF)で、9つのSOTA手法と比較して優れた融合品質を達成。
- LDL(言語駆動損失)は、LDLなしのアブレーションと比較して視覚知覚、コントラスト、ディテール保持を著しく改善。
- Cross Fusion Attention(CFA)は、マルチモーダル情報の局所融合を強化し、エッジ忠実度と背景構造を向上させる。
- 低照度/夜間条件でも融合結果は頑健で、ターゲットの顕著性と背景の細部が改善される。
- Table 1の定量的結果は、提案手法が評価されたデータセットで最良のEN、AG、SD、SF、VIFFを達成している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。