Skip to main content
QUICK REVIEW

[論文レビュー] CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion

Zixiang Zhao, Haowen Bai|arXiv (Cornell University)|Nov 26, 2022
Advanced Image Fusion Techniques被引用数 23
ひとこと要約

CDDFuse は、相関駆動の損失を用いたデュアルブラン Transformer-CNN エンコーダを導入し、マルチモーダル画像融合のベース(共有)特徴とディテール(特異)特徴を分解して IVF および MIF における最先端の結果を達成します。

ABSTRACT

Multi-modality (MM) image fusion aims to render fused images that maintain the merits of different modalities, e.g., functional highlight and detailed textures. To tackle the challenge in modeling cross-modality features and decomposing desirable modality-specific and modality-shared features, we propose a novel Correlation-Driven feature Decomposition Fusion (CDDFuse) network. Firstly, CDDFuse uses Restormer blocks to extract cross-modality shallow features. We then introduce a dual-branch Transformer-CNN feature extractor with Lite Transformer (LT) blocks leveraging long-range attention to handle low-frequency global features and Invertible Neural Networks (INN) blocks focusing on extracting high-frequency local information. A correlation-driven loss is further proposed to make the low-frequency features correlated while the high-frequency features uncorrelated based on the embedded information. Then, the LT-based global fusion and INN-based local fusion layers output the fused image. Extensive experiments demonstrate that our CDDFuse achieves promising results in multiple fusion tasks, including infrared-visible image fusion and medical image fusion. We also show that CDDFuse can boost the performance in downstream infrared-visible semantic segmentation and object detection in a unified benchmark. The code is available at https://github.com/Zhaozixiang1228/MMIF-CDDFuse.

研究の動機と目的

  • MMIF における modality-shared および modality-specific 情報を分離して、 modality間特徴モデリングの改善を動機づける。
  • グローバル(Transformer)と局所(CNN/INN)特徴抽出を組み合わせたデュアルブランチエンコーダを開発する。
  • 基底特徴を相関させ、ディテール特徴をモダリティ間でデコレラートする相関駆動の損失を提案する。
  • LT ベースのグローバル融合と INN ベースのローカル融合層を通じて効果的な融合を可能にする。
  • IVF および MIF のベンチマークで最先端の性能を示し、分割と検出などの下流タスクの利点を示す。

提案手法

  • Restormer ベースの浅層特徴抽出を用いてモダリティ間の手がかりを捉える。
  • デュアルブランチ長短期レンジエンコーダを用意する:低周波のベース特徴のための Base Transformer Encoder(LT ブロック)と高周波ディテールのための Detail CNN Encoder(INN ブロック)。
  • ディテール経路にInvertible Neural Networks(INN)を導入して高周波情報を保持する。
  • LT ベースの融合でベース特徴を、INN ベースの融合でディテールを融合する。
  • 二段階で訓練する:Stage I は入力画像を再構成して特徴分解をガイド;Stage II は分解特徴を用いて融合を行う。
  • 高相関のままベース特徴を相関させ、ディテール特徴をデコレラートさせることを促す相関駆動の分解損失:L_decomp = (CC(D_I,V))^2 / (CC(B_I,B_V) + ε)。
  • Stage II の損失は画像再構成/勾配項と、融合出力品質を導く同じ分解制約を含む。

実験結果

リサーチクエスチョン

  • RQ1MMIF がモダリティ共有(ベース)とモダリティ特異(ディテール)コンポーネントの特徴分解からどのように恩恵を受け得るか。
  • RQ2Transformer-CNN のハイブリッドアーキテクチャは IVF および MIF のグローバル・ローカルなモダリティ間情報を効果的に捉えられるか。
  • RQ3相関駆動の損失はベースとディテール特徴の分離性を高め、融合品質を向上させるか。
  • RQ4LT ベースのグローバル融合と INN ベースのローカル融合は性能を向上させつつ効率性を維持できるか。
  • RQ5CDDFuse が赤外-可視セマンティックセグメンテーションや物体検出などの下流タスクに与える影響はどうか。

主な発見

ENSDSFMISCDVIFQbafSSIM
6.7043.3811.563.471.621.050.691.00
7.4454.6716.362.301.810.690.520.98
7.4454.6716.362.301.810.770.540.98
  • CDDFuse は eight 融合指標を用いて IVF ベンチマーク(MSRS、RoadScene、TNO)で最先端または競争力のある結果を達成。
  • MSRS では EN=6.70, SD=43.38, SF=11.56, MI=3.47, SCD=1.62, VIF=1.05, Qbaf=0.69, SSIM=1.00。
  • RoadScene では EN=7.44, SD=54.67, SF=16.36, MI=2.30, SCD=1.81, VIF=0.69, Qbaf=0.52, SSIM=0.98。
  • TNO では EN=7.44, SD=54.67, SF=16.36, MI=2.30, SCD=1.81, VIF=0.69, Qbaf=0.52, SSIM=0.98。
  • 二段階訓練、LT+INN の組み合わせ、および相関ベースの分解損失の有効性を検証するアブレーション研究。
  • 下流の MM 物体検出とセマンティックセグメンテーションは、融合出力を使用することで性能が向上し、融合品質を超えた実用的な利点を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。