[논문 리뷰] Infrared and Visible Image Fusion with Language-Driven Loss in CLIP Embedding Space
CLIP 기반의 언어 주도 목표를 적외선-가시이미지 융합에 도입하여 CLIP 공간에서 융합 모델의 언어 표현과 일치시켜ground-truth 감독 없이 융합 품질을 향상시킨다.
Infrared-visible image fusion (IVIF) has attracted much attention owing to the highly-complementary properties of the two image modalities. Due to the lack of ground-truth fused images, the fusion output of current deep-learning based methods heavily depends on the loss functions defined mathematically. As it is hard to well mathematically define the fused image without ground truth, the performance of existing fusion methods is limited. In this paper, we propose to use natural language to express the objective of IVIF, which can avoid the explicit mathematical modeling of fusion output in current losses, and make full use of the advantage of language expression to improve the fusion performance. For this purpose, we present a comprehensive language-expressed fusion objective, and encode relevant texts into the multi-modal embedding space using CLIP. A language-driven fusion model is then constructed in the embedding space, by establishing the relationship among the embedded vectors representing the fusion objective and input image modalities. Finally, a language-driven loss is derived to make the actual IVIF aligned with the embedded language-driven fusion model via supervised training. Experiments show that our method can obtain much better fusion results than existing techniques. The code is available at https://github.com/wyhlaowang/LDFusion.
연구 동기 및 목표
- 자연어로 융합 목표를 표현하여 explicit 수학적 손실 설계를 피함으로써 적외선-가시 이미지 융합(IVIF)을 고무한다.
- CLIP를 활용해 입력 양식과 융합Objective를 공유 임베딩 공간으로 인코딩한다.
- 언어 주도 융합 모델과 해당 손실을 제안하여 실제 융합을 언어로 설명된 목표와 정렬시킨다.
제안 방법
- CLIP 이미지 인코더로 적외선 및 가시 입력을 인코딩하여 임베딩 벡터를 얻는다.
- CLIP 텍스트 인코더를 사용해 입력과 원하는 융합을 설명하는 언어 프롬프트를 인코딩하여 언어 주도 융합 모델을 형성한다.
- 입력-목표의 임베딩 공간 전이를 정렬하는 언어 주도 융합 손실을 정의하고 두 모달리티의 델타 벡터(ΔV)의 평행성을 통해 이를 달성한다.
- 로컬 가이던스를 위한 다중 스케일 패치 기반 버전의 융합 방향 손실(L_d^† )을 도입한다.
- 융합 임베딩이 원천 임베딩(Φ)으로 붕괴되는 것을 방지하기 위한 정규화 항을 추가한다.
- 콘텐츠를 보존하고 원하지 않는 콘텐츠를 억제하기 위해 VGG-19 피처를 기반으로 한 피처-충실도 손실(L_v)을 추가한다.
- 두 분리 인코더, 교차 융합 어텐션, 디코더를 갖춘 세 구성요소 융합 네트워크를 학습시켜 융합 이미지를 생성한다.
실험 결과
연구 질문
- RQ1CLIP 공간에서 언어 표현된 목표가 ground-truth 융합 이미지 없이 IVIF를 안내할 수 있는가?
- RQ2실제 융합 전이가 언어 주도 임베딩 모델과 정렬될 때 데이터셋과 지표 전반에서 융합 품질이 향상되는가?
- RQ3교차 융합 어텐션과 언어 주도 손실이 지향 대상과 배경 디테일의 보존에 어떤 영향을 미치는가?
- RQ4제안된 방법이 표준 융합 지표하에서 최첨단 IVIF 방법에 비해 어떤 성능을 보이는가?
주요 결과
| 지표 | FusionGAN | MFEIF | PIAFusion | PMGI | RFN | SwinFusion | U2Fusion | UMF | GANMcC | Ours |
|---|---|---|---|---|---|---|---|---|---|---|
| EN | 6.550 | 6.749 | 6.929 | 7.058 | 7.086 | 6.908 | 7.035 | 6.629 | 6.791 | 7.335 |
| AG | 3.069 | 3.685 | 6.029 | 4.616 | 3.066 | 5.801 | 6.430 | 4.113 | 3.395 | 9.878 |
| SD | 30.487 | 33.827 | 41.400 | 38.707 | 40.224 | 39.735 | 37.894 | 30.817 | 34.162 | 51.502 |
| SF | 3.922 | 4.345 | 6.291 | 5.232 | 3.837 | 6.166 | 6.787 | 4.674 | 4.082 | 8.365 |
| VIFF | 0.265 | 0.376 | 0.405 | 0.593 | 0.575 | 0.451 | 0.699 | 0.359 | 0.433 | 0.751 |
- 데이터 세트(TNO 및 RoadScene) 및 지표(EN, AG, SD, SF, VIFF)에서 SOTA 방법과 비교하여 우수한 융합 품질을 달성했다.
- 언어 주도 손실(LDL)이 LDL이 없는 제거 실험(ablation) 대비 시각적 지각, 대비, 디테일 보존을 크게 향상시켰다.
- Cross Fusion Attention(CFA)이 다중 모달 정보의 로컬 융합을 향상시켜 에지 충실도와 배경 구조를 개선한다.
- 저조도/야간 조건에서도 융합 결과가 견고하며 목표 주목도와 배경 디테일이 더 좋다.
- 표 1의 정량적 결과가 제안된 방법이 평가 데이터셋에서 EN, AG, SD, SF, VIFF에서 최적치를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.