QUICK REVIEW

[논문 리뷰] Breaking Self-Attention Failure: Rethinking Query Initialization for Infrared Small Target Detection

Y. J. Liu, Duanni Meng|arXiv (Cornell University)|2026. 01. 06.

Infrared Target Detection Methodologies인용 수 0

한 줄 요약

SEF-DETR은 DETR 기반 IRSTD의 임베딩 희석을 극복하기 위해 주파수 가이드 패치 선별, 동적 임베딩 강화, 신뢰도-일관성 인식 융합을 도입하여 세 가지 IRSTD 데이터셋에서 최첨단 성과를 달성합니다.

ABSTRACT

Infrared small target detection (IRSTD) faces significant challenges due to the low signal-to-noise ratio (SNR), small target size, and complex cluttered backgrounds. Although recent DETR-based detectors benefit from global context modeling, they exhibit notable performance degradation on IRSTD. We revisit this phenomenon and reveal that the target-relevant embeddings of IRST are inevitably overwhelmed by dominant background features due to the self-attention mechanism, leading to unreliable query initialization and inaccurate target localization. To address this issue, we propose SEF-DETR, a novel framework that refines query initialization for IRSTD. Specifically, SEF-DETR consists of three components: Frequency-guided Patch Screening (FPS), Dynamic Embedding Enhancement (DEE), and Reliability-Consistency-aware Fusion (RCF). The FPS module leverages the Fourier spectrum of local patches to construct a target-relevant density map, suppressing background-dominated features. DEE strengthens multi-scale representations in a target-aware manner, while RCF further refines object queries by enforcing spatial-frequency consistency and reliability. Extensive experiments on three public IRSTD datasets demonstrate that SEF-DETR achieves superior detection performance compared to state-of-the-art methods, delivering a robust and efficient solution for infrared small target detection task.

연구 동기 및 목표

내가 왜 IRSTD에서 자기-주목이 대상 관련 임베딩을 희석시키는지 분석하고 동기 부여를 제시한다.
주OBJECTIVE; 3-5 bullet points: 연구 목표 및 동기
DETR 기반 프레임워크(SEF-DETR)를 제안하여 주파수 영역의 사전지식을 이용해 객체 질의를 초기화하고 정제한다.
FPS, DEE, RCF 구성요소가 여러 데이터세트에서 매우 작은 적외선 타겟 탐지를 공동으로 개선하는지 입증한다.
IRSTD 벤치마크에서의 최첨단 성능을 보여주고 모델 복잡도를 분석한다.

제안 방법

주파수 가이드 패치 선별(FPS)을 도입하여 패치 푸리에 스펙트럼으로부터 타깃 관련 밀도 맵을 구축한다.
타깃 밀도 맵에 의해 안내되는 다중 스케일 임베딩을 강화하는 동적 임베딩 강화(DEE)를 개발한다.
공간-주파수 일관성과 신뢰성을 이용해 객체 질의를 선택·정제하는 신뢰도-일관성 인식 융합(RCF)을 설계한다.
FPS, DEE, RCF를 하나의 DETR 기반 아키텍처(SEF-DETR)에 통합하고 헝가리언 손실과 패치-주파수 손실을 적용한다.
학습 목표를 결합: L = L_hungarian + lambda * L_freq (lambda=2).
CNN 기반 지표(P, R, F1)와 AI-TOD DETR 유사 AP 지표를 사용하여 IRSTD-1k, NUAA-SIRST, NUDT-SIRST에서 평가한다.

실험 결과

연구 질문

RQ1왜 DETR 기반 IRSTD 모델에서 자기-주목이 대상 관련 임베딩을 희석시키는가?
RQ2주파수 도메인 사전지식이 IRSTD에서 대상 중심 질의 초기화 및 배경 오염 감소에 도움이 되는가?
RQ3FPS, DEE, RCF가 매우 작은 적외선 타깃의 탐지를 강화하는 데 상호 보완적 이점을 제공하는가?
RQ4SEF-DETR가 표준 벤치마크에서 최첨단 CNN 기반 및 DETR 유사 IRSTD 방법에 대해 어떻게 성능을 보이는가?

주요 결과

방법	유형	P (IRSTD-1k)	R (IRSTD-1k)	F1 (IRSTD-1k)	P (NUAA-SIRST)	R (NUAA-SIRST)	F1 (NUAA-SIRST)	P (NUDT-SIRST)	R (NUDT-SIRST)	F1 (NUDT-SIRST)
SEF-DETR (Ours)	CNN-based	92.4	85.9	89.0	94.8	97.3	96.1	100.0	96.3	98.1
(Other CNN-based methods shown)	-	-	-	-	-	-	-	-	-	-

SEF-DETR은 CNN 기반 방법과 비교하여 IRSTD-1k, NUAA-SIRST, NUDT-SIRST에서 우수한 결과를 달성한다(예: SEF-DETR: IRSTD-1k P=92.4, R=85.9, F1=89.0; NUAA-SIRST P=94.8, R=97.3, F1=96.1; NUDT-SIRST P=100.0, R=96.3, F1=98.1).
DETR 유사 기반 대비 SEF-DETR은 특히 매우 작은 타깃에 대해 AP 지표에서 강한 개선을 보인다(AP vt).
절삭 연구에서 FPS, DEE, RCF 각각이 성능 향상에 기여하는 것이 확인되었으며, 이들의 조합이 최상의 결과를 낳는다.
고주파 및 저주파의 주파수 대역 모두가 성능에 이득을 주며 전체 스펙트럼을 사용할 때 최적의 결과를 얻는다.
DEE의 학습 가능 임계값과 RCF의 결합된 R과 C 융합은 고정 임계값 및 단순 융합보다 우수하다.
SEF-DETR은 매개변수와 FLOPs의 증가가 아주 작고(+0.27M 파라미터, +0.08G FLOPs)도 정확도 향상을 크게 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.