QUICK REVIEW

[논문 리뷰] TSJNet: A Multi-modality Target and Semantic Awareness Joint-driven Image Fusion Network

Yuchan Jie, Yushen Xu|arXiv (Cornell University)|2024. 02. 02.

Advanced Image Fusion Techniques인용 수 25

한 줄 요약

TSJNet은 세분화 및 탐지 작업의 이중 가이던스 하에 적외선과 가시 이미지를 융합하여 융합 품질이 우수하고 다운스트림 탐지/분할 성능이 향상됩니다.

ABSTRACT

This study aims to address the problem of incomplete information in unimodal images for semantic segmentation and object detection tasks. Existing multimodal fusion methods suffer from limited capability in discriminative modeling of multi-scale semantic structures and salient target regions, which further restricts the effective fusion of task-related semantic details and target information across modalities. To tackle these challenges, this paper proposes a novel fusion network termed TSJNet, which leverages the semantic information output by high-level tasks in a joint manner to guide the fusion process. Specifically, we design a multi-dimensional feature extraction module with dual parallel branches to capture multi-scale and salient features. Meanwhile, a data-agnostic spatial attention module embedded in the decoder dynamically calibrates attention allocation across different data domains, significantly enhancing the model's generalization ability. To optimize both fusion and advanced visual tasks, we balance performance by combining fusion loss with semantic losses. Additionally, we have developed a multimodal unmanned aerial vehicle (UAV) dataset covering multiple scenarios (UMS). Extensive experiments demonstrate that TSJNet achieves outstanding performance on five public datasets (MSRS, M extsuperscript{3}FD, RoadScene, LLVIP, and TNO) and our UMS dataset. The generated fusion results exhibit favorable visual effects, and compared to state-of-the-art methods, the mean average precision (mAP@0.5) and mean intersection over union (mIoU) for object detection and segmentation, respectively, improve by 7.97\% and 10.88\%.The code and the dataset has been publicly released at https://github.com/XylonXu01/TSJNet.

연구 동기 및 목표

다운스트림 작업으로부터 고수준 시맨틱 및 목표 정보를 활용하여 MMIF를 개선하려는 동기 부여.
세분화 및 탐지에 의해 가이드되는 융합 네트워크를 개발하여 교차 모드 특징 통합을 강화.
국지적 및 글로벌 교차 모달 세부 정보를 포착하는 효율적인 특징 추출기 및 융합 방식 설계.
융합 품질과 다운스트림 세분화 및 탐지 성능을 함께 최적화하는 손실 함수 도입

제안 방법

적외선 및 가시 영상에서 교차 모달 특징을 추출하기 위한 ResNeSt 블록 기반 인코더.
이웃 주의 트랜스포머(NAT) 및 디테일 현저 모듈(DSM)을 포함한 이중 분기를 가진 Local Significant Feature (LSM) 융합 계층으로 국지적/글로벌 세부 정보를 포착.
크로스-모달 정보 전파를 위한 메타 학습에서 영감을 받은 공간 주의가 적용된 ResNeSt 기반 구조의 디코더.
융합 품질, 물체 탐지 및 시맨틱 세분화를 함께 최적화하는 손실(다면체 융합 손실, 탐지 손실, 세분화 손실).
심층 학습 기반의 DeepLabV3+에서 통합된 시맨틱 손실로 융합 출력의 시맨틱 일관성 강제.
정리된 식은 L_all = L_MFF + L_Det + L_Seg와 L_MFF는 L_div, L_ssim, L_mse 항으로 구성된 것을 포함한다.

실험 결과

연구 질문

RQ1탐지와 세분화의 다중 작업 가이던스가 단일 작업 융합 모델보다 다중 모달 영상 융합의 품질을 향상시킬 수 있는가?
RQ2로컬 Significant Feature 추출 모듈이 교차 모달 특징 상호작용 및 다운스트림 작업 성능을 향상시키는가?
RQ3탐지 및 세분화 손실과 함께 융합을 공동 최적화하는 것이 다운스트림 물체 탐지 및 시맨틱 세분화에 어떤 영향을 미치는가?
RQ4TSJNet은 MSRS, M3FD, RoadScene, LLVIP 등 다수의 공개 데이터셋에서 최첨단 융합 방법과 비교하여 어떤 성능을 보이는가?

주요 결과

방법	SSIM	PSNR	MSE	VIF	CC	CV
ReC	0.30	16.38	2005.55	0.31	0.56	319.06
CDD	0.68	16.23	2437.54	0.44	0.60	230.35
LRR	0.59	16.61	2039.84	0.33	0.51	613.42
TarD	0.46	16.99	1941.00	0.34	0.46	2342.74
IGN	0.56	17.22	1811.24	0.32	0.65	903.80
Sup	0.50	14.05	4717.51	0.24	0.27	1667.85
DIV	0.34	8.51	9613.72	0.18	0.57	1364.19
TSJNet	0.69	18.13	1502.60	0.62	344.20
ReC	0.67	14.11	2989.60	0.33	0.51	496.54
CDD	0.69	13.04	4035.47	0.37	0.52	501.84
LRR	0.70	14.48	2722.86	0.36	0.53	678.53
TarD	0.68	13.74	3385.62	0.39	0.44	1271.50
IGN	0.58	12.11	4649.93	0.24	0.52	1020.07
Sup	0.69	12.98	4019.42	0.40	0.47	598.91
DIV	0.59	10.44	6362.27	0.25	0.68	645.38
TSJNet	0.70	14.63	2714.86	0.33	0.53	524.41
ReC	0.72	15.40	2404.92	0.32	0.62	460.00
CDD	0.67	14.03	3077.02	0.25	0.63	426.30
LRR	0.58	11.82	4401.71	0.24	0.62	629.70
TarD	0.69	14.82	2603.71	0.31	0.58	1255.83
IGN	0.52	10.31	6693.45	0.28	0.60	1033.15
Sup	0.74	14.51	2928.35	0.34	0.60	420.00
DIV	0.61	13.86	3033.92	0.19	0.62	907.78
TSJNet	0.70	14.52	2544.58	0.33	0.64	516.82
ReC	0.42	14.64	2281.86	0.30	0.69	302.05
CDD	0.64	14.58	2315.02	0.41	0.68	332.29
LRR	0.59	15.93	1688.62	0.39	0.68	580.90
TarD	0.56	14.33	2508.97	0.41	0.65	1095.24
IGN	0.55	14.97	2137.50	0.24	0.68	638.59
Sup	0.64	14.62	2306.66	0.38	0.68	360.89
DIV	0.46	10.44	6362.27	0.25	0.68	645.38
TSJNet	0.64	15.97	1697.69	0.37	0.67	457.46

TSJNet은 벤치마크 데이터셋에서 7개 SOTA 방법 대비 물체 탐지의 downstream mAP@0.5와 세분화의 mIoU에서 각각 평균 2.84% 및 7.47%의 향상으로 더 높은 성능을 달성한다.
MSRS, M3FD, RoadScene, LLVIP에서 TSJNet은 다수의 베이스라인에 대해 융합 지표(SSIM, PSNR, MSE, VIF, CC, CV)에서 우월한 성능을 제공한다.
변수 제거 연구에서 DSM 및 이중 탐지/세분화 손실이 융합 품질과 다운스트림 작업 성능을 크게 향상시켰다.
융합 출력이 에지 및 텍스처를 더 잘 보존하여 도전적인 장면에서 더 안정적인 탐지와 정확한 세분화를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.