[論文レビュー] CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion
CDDFuse は、相関駆動の損失を用いたデュアルブラン Transformer-CNN エンコーダを導入し、マルチモーダル画像融合のベース(共有)特徴とディテール(特異)特徴を分解して IVF および MIF における最先端の結果を達成します。
Multi-modality (MM) image fusion aims to render fused images that maintain the merits of different modalities, e.g., functional highlight and detailed textures. To tackle the challenge in modeling cross-modality features and decomposing desirable modality-specific and modality-shared features, we propose a novel Correlation-Driven feature Decomposition Fusion (CDDFuse) network. Firstly, CDDFuse uses Restormer blocks to extract cross-modality shallow features. We then introduce a dual-branch Transformer-CNN feature extractor with Lite Transformer (LT) blocks leveraging long-range attention to handle low-frequency global features and Invertible Neural Networks (INN) blocks focusing on extracting high-frequency local information. A correlation-driven loss is further proposed to make the low-frequency features correlated while the high-frequency features uncorrelated based on the embedded information. Then, the LT-based global fusion and INN-based local fusion layers output the fused image. Extensive experiments demonstrate that our CDDFuse achieves promising results in multiple fusion tasks, including infrared-visible image fusion and medical image fusion. We also show that CDDFuse can boost the performance in downstream infrared-visible semantic segmentation and object detection in a unified benchmark. The code is available at https://github.com/Zhaozixiang1228/MMIF-CDDFuse.
研究の動機と目的
- MMIF における modality-shared および modality-specific 情報を分離して、 modality間特徴モデリングの改善を動機づける。
- グローバル(Transformer)と局所(CNN/INN)特徴抽出を組み合わせたデュアルブランチエンコーダを開発する。
- 基底特徴を相関させ、ディテール特徴をモダリティ間でデコレラートする相関駆動の損失を提案する。
- LT ベースのグローバル融合と INN ベースのローカル融合層を通じて効果的な融合を可能にする。
- IVF および MIF のベンチマークで最先端の性能を示し、分割と検出などの下流タスクの利点を示す。
提案手法
- Restormer ベースの浅層特徴抽出を用いてモダリティ間の手がかりを捉える。
- デュアルブランチ長短期レンジエンコーダを用意する:低周波のベース特徴のための Base Transformer Encoder(LT ブロック)と高周波ディテールのための Detail CNN Encoder(INN ブロック)。
- ディテール経路にInvertible Neural Networks(INN)を導入して高周波情報を保持する。
- LT ベースの融合でベース特徴を、INN ベースの融合でディテールを融合する。
- 二段階で訓練する:Stage I は入力画像を再構成して特徴分解をガイド;Stage II は分解特徴を用いて融合を行う。
- 高相関のままベース特徴を相関させ、ディテール特徴をデコレラートさせることを促す相関駆動の分解損失:L_decomp = (CC(D_I,V))^2 / (CC(B_I,B_V) + ε)。
- Stage II の損失は画像再構成/勾配項と、融合出力品質を導く同じ分解制約を含む。
実験結果
リサーチクエスチョン
- RQ1MMIF がモダリティ共有(ベース)とモダリティ特異(ディテール)コンポーネントの特徴分解からどのように恩恵を受け得るか。
- RQ2Transformer-CNN のハイブリッドアーキテクチャは IVF および MIF のグローバル・ローカルなモダリティ間情報を効果的に捉えられるか。
- RQ3相関駆動の損失はベースとディテール特徴の分離性を高め、融合品質を向上させるか。
- RQ4LT ベースのグローバル融合と INN ベースのローカル融合は性能を向上させつつ効率性を維持できるか。
- RQ5CDDFuse が赤外-可視セマンティックセグメンテーションや物体検出などの下流タスクに与える影響はどうか。
主な発見
| EN | SD | SF | MI | SCD | VIF | Qbaf | SSIM |
|---|---|---|---|---|---|---|---|
| 6.70 | 43.38 | 11.56 | 3.47 | 1.62 | 1.05 | 0.69 | 1.00 |
| 7.44 | 54.67 | 16.36 | 2.30 | 1.81 | 0.69 | 0.52 | 0.98 |
| 7.44 | 54.67 | 16.36 | 2.30 | 1.81 | 0.77 | 0.54 | 0.98 |
- CDDFuse は eight 融合指標を用いて IVF ベンチマーク(MSRS、RoadScene、TNO)で最先端または競争力のある結果を達成。
- MSRS では EN=6.70, SD=43.38, SF=11.56, MI=3.47, SCD=1.62, VIF=1.05, Qbaf=0.69, SSIM=1.00。
- RoadScene では EN=7.44, SD=54.67, SF=16.36, MI=2.30, SCD=1.81, VIF=0.69, Qbaf=0.52, SSIM=0.98。
- TNO では EN=7.44, SD=54.67, SF=16.36, MI=2.30, SCD=1.81, VIF=0.69, Qbaf=0.52, SSIM=0.98。
- 二段階訓練、LT+INN の組み合わせ、および相関ベースの分解損失の有効性を検証するアブレーション研究。
- 下流の MM 物体検出とセマンティックセグメンテーションは、融合出力を使用することで性能が向上し、融合品質を超えた実用的な利点を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。