Skip to main content
QUICK REVIEW

[논문 리뷰] W-DUALMINE: Reliability-Weighted Dual-Expert Fusion With Residual Correlation Preservation for Medical Image Fusion

Md. Jahidul Islam|arXiv (Cornell University)|2026. 01. 13.
Advanced Image Fusion Techniques인용 수 0
한 줄 요약

W-DUALMINE은 신뢰도 가중 이중 전문가와 잔차-평균 융합을 활용하여 전역 통계치(MI/CC)를 보존하면서 CT–MRI, PET–MRI, SPECT–MRI 데이터에서 국부 디테일을 향상시키고 AdaFuse 및 ASFE-Fusion보다 우수합니다.

ABSTRACT

Medical image fusion integrates complementary information from multiple imaging modalities to improve clinical interpretation. However, existing deep learningbased methods, including recent spatial-frequency frameworks such as AdaFuse and ASFE-Fusion, often suffer from a fundamental trade-off between global statistical similaritymeasured by correlation coefficient (CC) and mutual information (MI)and local structural fidelity. This paper proposes W-DUALMINE, a reliability-weighted dual-expert fusion framework designed to explicitly resolve this trade-off through architectural constraints and a theoretically grounded loss design. The proposed method introduces dense reliability maps for adaptive modality weighting, a dual-expert fusion strategy combining a global-context spatial expert and a wavelet-domain frequency expert, and a soft gradient-based arbitration mechanism. Furthermore, we employ a residual-to-average fusion paradigm that guarantees the preservation of global correlation while enhancing local details. Extensive experiments on CT-MRI, PET-MRI, and SPECT-MRI datasets demonstrate that W-DUALMINE consistently outperforms AdaFuse and ASFE-Fusion in CC and MI metrics while

연구 동기 및 목표

  • 의료 영상 융합에서 전역 통계적 유사도와 국부 구조적 충실도 사이의 트레이드오프를 다룬다.
  • 융합 전에 신뢰할 수 없는 영역의 아티팩트를 억제하기 위해 조밀한 신뢰도 맵을 도입한다.
  • 연속적인 소프트 그래디언트 중재 메커니즘을 갖춘 이중 전문가 융합 아키텍처(공간 및 웨이브렛 주파수)를 개발한다.
  • 소스 입력과 함께 이론적으로 높은 CC 및 MI를 보존하기 위해 잔차-평균 융합 패러다임을 채택한다.

제안 방법

  • 시암 네트워크 다중 스케일 인코더가 각 모달리티에서 계층적 특징을 추출한다.
  • 조밀한 신뢰도 맵이 픽셀 단위의 신뢰도 점수를 예측하여 특징 융합을 적응적으로 가중한다.
  • 각 스케일에서의 이중 전문가 융합: Global Context Spatial Expert와 Wavelet Frequency Expert.
  • Soft Gradient Mixer는 에지 강도에 따라 공간 및 웨이브렛 출력 간을 동적으로 중재한다.
  • 잔차를 입력의 평균에 더해 융합 이미지를 재구성하는 Residual-to-Average 디코더가 전역 통계 보존을 보장한다.
  • 다섯 항목(L_avg, L_grad, L_cc, L_mi, L_rec)으로 구성된 합성 손실은 콘텐츠 충실도, 에지 보존, 상관, 정보 및 재구성을 균형 있게 조정한다.
Figure 1: Architecture of the Reliability-Weighted Dual-Expert Fusion Network. The framework processes multi-modal inputs (e.g., CT/PET and MRI) through a Siamese encoder composed of ResBlocks. Feature maps are weighted by a Reliability Estimation module before entering two parallel expert branches:
Figure 1: Architecture of the Reliability-Weighted Dual-Expert Fusion Network. The framework processes multi-modal inputs (e.g., CT/PET and MRI) through a Siamese encoder composed of ResBlocks. Feature maps are weighted by a Reliability Estimation module before entering two parallel expert branches:

실험 결과

연구 질문

  • RQ1신뢰도 가중 피처 모델링이 신뢰할 수 없는 영역의 아티팩트를 억제하고 융합 품질을 향상시킬 수 있는가?
  • RQ2소프트 그래디언트 중재를 갖춘 이중 전문가(공간 및 웨이브렛) 융합 경로가 전역 통계를 보존하면서 국부 디테일을 향상시키는가?
  • RQ3잔차-평균 융합 방식이 소스 모달리티와 함께 높은 상호 정보(MI) 및 상관 계수(CC)를 보장하는가?

주요 결과

MethodENMICCPSNRFMI
AdaFuse (CT–MRI)5.0592±0.23463.3570±0.19780.8306±0.023864.0004±0.77570.4343±0.0170
ASFE-Fusion (CT–MRI)5.4855±0.27343.1463±0.16050.8302±0.023863.9884±0.78450.4066±0.0180
W-DUALMINE (CT–MRI)4.3394±0.25023.6059±0.24190.8308±0.023864.0891±0.79170.4746±0.0210
  • CT–MRI에서 W-DUALMINE은 MI = 3.6059 및 CC = 0.8308을 달성하여 전역 통계적 유사성에서 경쟁자들을 능가한다.
  • CT–MRI에서 PSNR = 64.0891 및 FMI = 0.4746를 얻어 에지 보존과 특징 충실도가 높음을 나타낸다.
  • PET–MRI에서 MI = 4.3068 및 FMI = 0.5064, CC = 0.8686을 달성하여 기능 정보 전달 및 질감 보존이 향상되었음을 보여준다.
  • SPECT–MRI에서 MI = 4.0016, CC = 0.9116, PSNR = 64.9084를 기록하여 해상도 차이와 잡음 하에서 견고한 성능을 강조한다.
Figure 2: The overall framework of W-DUALMINE. The architecture consists of Siamese encoders extracting multi-scale features, which are fused and projected for contrastive learning. The network is optimized via a composite loss function comprising: (1) Average Content Loss ( $\mathcal{L}_{avg}$ ) fo
Figure 2: The overall framework of W-DUALMINE. The architecture consists of Siamese encoders extracting multi-scale features, which are fused and projected for contrastive learning. The network is optimized via a composite loss function comprising: (1) Average Content Loss ( $\mathcal{L}_{avg}$ ) fo

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.