[논문 리뷰] Target-aware Dual Adversarial Learning and a Multi-scenario Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection
본 논문은 TarDAL을 제안한다. 이는 탐지로 안내되는 이중적 적대적 융합 네트워크이며, bilevel 최적화를 통해 탐지를 수행하고, 다중 시나리오 IR-Visible 객체 탐지를 위한 M3FD 벤치마크를 도입하여 우수한 탐지 성능과 효율적인 융합을 달성한다.
This study addresses the issue of fusing infrared and visible images that appear differently for object detection. Aiming at generating an image of high visual quality, previous approaches discover commons underlying the two modalities and fuse upon the common space either by iterative optimization or deep networks. These approaches neglect that modality differences implying the complementary information are extremely important for both fusion and subsequent detection task. This paper proposes a bilevel optimization formulation for the joint problem of fusion and detection, and then unrolls to a target-aware Dual Adversarial Learning (TarDAL) network for fusion and a commonly used detection network. The fusion network with one generator and dual discriminators seeks commons while learning from differences, which preserves structural information of targets from the infrared and textural details from the visible. Furthermore, we build a synchronized imaging system with calibrated infrared and optical sensors, and collect currently the most comprehensive benchmark covering a wide range of scenarios. Extensive experiments on several public datasets and our benchmark demonstrate that our method outputs not only visually appealing fusion but also higher detection mAP than the state-of-the-art approaches.
연구 동기 및 목표
- 적외선과 가시 모달리티의 보완 정보를 활용한 탐지 지향적 융합을 촉진한다.
- 융합과 탐지를 bilevel 최적화 문제로 형식화하고 학습 가능 네트워크로 전개한다.
- 대상 구조와 질감 세부를 보존하는 대상 인식 이중 적대적 융합 네트워크를 개발한다.
- 평가를 위한 동기화된 IR-가시 영상 시스템과 포괄적 다중 시나리오 벤치마크(M3FD)를 만든다.
제안 방법
- 융합과 탐지에 대한 bilevel 최적화를 형식화하고 이를 단일 수준의 공동 학습 문제로 변환한다.
- TarDAL을 하나의 제너레이터와 두 개의 디스크리미네이터로 설계하여 공통점을 학습하면서 모달리티 차이(대상 디스크리미네이터와 디테일 디스크리미네이터)를 활용한다.
- 융합 품질을 위해 SSIM 기반 구조 손실과 주목도 가중치로 가중된 픽셀 손실을 사용한다.
- 적외선 영역의 대상 영역과 배경 질감(그래디언트/가시)에서 Wasserstein 영감을 받은 손실을 통해 적대적 손실을 도입한다.
- 융합 손실 항을 통해 탐지 성능을 향상시키도록 융합을 정규화하는 협력 학습 스킴을 채택한다.
- 정렬된 IR 및 가시 페어와 주석을 갖춘 동기화된 영상 시스템과 다중 시나리오 다중 모달리티 데이터셋(M3FD)을 제공한다.
실험 결과
연구 질문
- RQ1높은 품질의 융합을 유지하면서 탐지 성능을 향상시키기 위해 bilevel 최적화가 이미지 융합과 객체 탐지를 공동으로 최적화할 수 있는가?
- RQ2대상 인식 이중 적대적 융합 네트워크가 이전 IVIF 방법과 비교해 대상 구조 및 질감 세부를 더 잘 보존하는가?
- RQ3융합 네트워크와 탐지 네트워크 간의 협력 학습이 더 빠른 추론과 더 나은 탐지 정확도를 가져오는가?
- RQ4포괄적 다중 시나리오 M3FD 벤치마크가 융합된 IR-가시 데이터에서 탐지를 학습하고 평가하는 데 어떻게 도움이 되는가?
주요 결과
- TarDAL은 다중 데이터셋에서 최첨단 융합 기반 검출기의 더 높은 탐지 mAP를 달성한다.
- 대상 인식 이중 판별기가 융합 영상에서 판별 가능한 적외선 대상과 가시 질감 세부를 보존하는 데 도움을 준다.
- 협력적 학습은 단일 작업 학습이나 독립 학습보다 융합 품질과 탐지 성능 간의 균형을 더 효과적으로 달성한다.
- M3FD 벤치마크는 Day, Overcast, Night, Challenge 등 다양한 시나리오와 4,200개의 정렬된 IR-가시 페어, 33,603의 주석 객체를 여섯 개 클래스에 걸쳐 제공한다.
- TarDAL은 경쟁 방법에 비해 파라미터 수가 적고 계산 복잡도가 낮은 효율적인 추론을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.