QUICK REVIEW

[論文レビュー] CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion

Zixiang Zhao, Haowen Bai|arXiv (Cornell University)|Nov 26, 2022

Advanced Image Fusion Techniques被引用数 23

ひとこと要約

CDDFuse は、相関駆動の損失を用いたデュアルブラン Transformer-CNN エンコーダを導入し、マルチモーダル画像融合のベース（共有）特徴とディテール（特異）特徴を分解して IVF および MIF における最先端の結果を達成します。

ABSTRACT

Multi-modality (MM) image fusion aims to render fused images that maintain the merits of different modalities, e.g., functional highlight and detailed textures. To tackle the challenge in modeling cross-modality features and decomposing desirable modality-specific and modality-shared features, we propose a novel Correlation-Driven feature Decomposition Fusion (CDDFuse) network. Firstly, CDDFuse uses Restormer blocks to extract cross-modality shallow features. We then introduce a dual-branch Transformer-CNN feature extractor with Lite Transformer (LT) blocks leveraging long-range attention to handle low-frequency global features and Invertible Neural Networks (INN) blocks focusing on extracting high-frequency local information. A correlation-driven loss is further proposed to make the low-frequency features correlated while the high-frequency features uncorrelated based on the embedded information. Then, the LT-based global fusion and INN-based local fusion layers output the fused image. Extensive experiments demonstrate that our CDDFuse achieves promising results in multiple fusion tasks, including infrared-visible image fusion and medical image fusion. We also show that CDDFuse can boost the performance in downstream infrared-visible semantic segmentation and object detection in a unified benchmark. The code is available at https://github.com/Zhaozixiang1228/MMIF-CDDFuse.

研究の動機と目的

MMIF における modality-shared および modality-specific 情報を分離して、 modality間特徴モデリングの改善を動機づける。
グローバル（Transformer）と局所（CNN/INN）特徴抽出を組み合わせたデュアルブランチエンコーダを開発する。
基底特徴を相関させ、ディテール特徴をモダリティ間でデコレラートする相関駆動の損失を提案する。
LT ベースのグローバル融合と INN ベースのローカル融合層を通じて効果的な融合を可能にする。
IVF および MIF のベンチマークで最先端の性能を示し、分割と検出などの下流タスクの利点を示す。

提案手法

Restormer ベースの浅層特徴抽出を用いてモダリティ間の手がかりを捉える。
デュアルブランチ長短期レンジエンコーダを用意する：低周波のベース特徴のための Base Transformer Encoder（LT ブロック）と高周波ディテールのための Detail CNN Encoder（INN ブロック）。
ディテール経路にInvertible Neural Networks（INN）を導入して高周波情報を保持する。
LT ベースの融合でベース特徴を、INN ベースの融合でディテールを融合する。
二段階で訓練する：Stage I は入力画像を再構成して特徴分解をガイド；Stage II は分解特徴を用いて融合を行う。
高相関のままベース特徴を相関させ、ディテール特徴をデコレラートさせることを促す相関駆動の分解損失：L_decomp = (CC(D_I,V))^2 / (CC(B_I,B_V) + ε)。
Stage II の損失は画像再構成/勾配項と、融合出力品質を導く同じ分解制約を含む。

実験結果

リサーチクエスチョン

RQ1MMIF がモダリティ共有（ベース）とモダリティ特異（ディテール）コンポーネントの特徴分解からどのように恩恵を受け得るか。
RQ2Transformer-CNN のハイブリッドアーキテクチャは IVF および MIF のグローバル・ローカルなモダリティ間情報を効果的に捉えられるか。
RQ3相関駆動の損失はベースとディテール特徴の分離性を高め、融合品質を向上させるか。
RQ4LT ベースのグローバル融合と INN ベースのローカル融合は性能を向上させつつ効率性を維持できるか。
RQ5CDDFuse が赤外-可視セマンティックセグメンテーションや物体検出などの下流タスクに与える影響はどうか。

主な発見

EN	SD	SF	MI	SCD	VIF	Qbaf	SSIM
6.70	43.38	11.56	3.47	1.62	1.05	0.69	1.00
7.44	54.67	16.36	2.30	1.81	0.69	0.52	0.98
7.44	54.67	16.36	2.30	1.81	0.77	0.54	0.98

CDDFuse は eight 融合指標を用いて IVF ベンチマーク（MSRS、RoadScene、TNO）で最先端または競争力のある結果を達成。
MSRS では EN=6.70, SD=43.38, SF=11.56, MI=3.47, SCD=1.62, VIF=1.05, Qbaf=0.69, SSIM=1.00。
RoadScene では EN=7.44, SD=54.67, SF=16.36, MI=2.30, SCD=1.81, VIF=0.69, Qbaf=0.52, SSIM=0.98。
TNO では EN=7.44, SD=54.67, SF=16.36, MI=2.30, SCD=1.81, VIF=0.69, Qbaf=0.52, SSIM=0.98。
二段階訓練、LT+INN の組み合わせ、および相関ベースの分解損失の有効性を検証するアブレーション研究。
下流の MM 物体検出とセマンティックセグメンテーションは、融合出力を使用することで性能が向上し、融合品質を超えた実用的な利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。