Skip to main content
QUICK REVIEW

[논문 리뷰] Breaking Self-Attention Failure: Rethinking Query Initialization for Infrared Small Target Detection

Y. J. Liu, Duanni Meng|arXiv (Cornell University)|2026. 01. 06.
Infrared Target Detection Methodologies인용 수 0
한 줄 요약

SEF-DETR은 DETR 기반 IRSTD의 임베딩 희석을 극복하기 위해 주파수 가이드 패치 선별, 동적 임베딩 강화, 신뢰도-일관성 인식 융합을 도입하여 세 가지 IRSTD 데이터셋에서 최첨단 성과를 달성합니다.

ABSTRACT

Infrared small target detection (IRSTD) faces significant challenges due to the low signal-to-noise ratio (SNR), small target size, and complex cluttered backgrounds. Although recent DETR-based detectors benefit from global context modeling, they exhibit notable performance degradation on IRSTD. We revisit this phenomenon and reveal that the target-relevant embeddings of IRST are inevitably overwhelmed by dominant background features due to the self-attention mechanism, leading to unreliable query initialization and inaccurate target localization. To address this issue, we propose SEF-DETR, a novel framework that refines query initialization for IRSTD. Specifically, SEF-DETR consists of three components: Frequency-guided Patch Screening (FPS), Dynamic Embedding Enhancement (DEE), and Reliability-Consistency-aware Fusion (RCF). The FPS module leverages the Fourier spectrum of local patches to construct a target-relevant density map, suppressing background-dominated features. DEE strengthens multi-scale representations in a target-aware manner, while RCF further refines object queries by enforcing spatial-frequency consistency and reliability. Extensive experiments on three public IRSTD datasets demonstrate that SEF-DETR achieves superior detection performance compared to state-of-the-art methods, delivering a robust and efficient solution for infrared small target detection task.

연구 동기 및 목표

  • 내가 왜 IRSTD에서 자기-주목이 대상 관련 임베딩을 희석시키는지 분석하고 동기 부여를 제시한다.
  • 주OBJECTIVE; 3-5 bullet points: 연구 목표 및 동기
  • DETR 기반 프레임워크(SEF-DETR)를 제안하여 주파수 영역의 사전지식을 이용해 객체 질의를 초기화하고 정제한다.
  • FPS, DEE, RCF 구성요소가 여러 데이터세트에서 매우 작은 적외선 타겟 탐지를 공동으로 개선하는지 입증한다.
  • IRSTD 벤치마크에서의 최첨단 성능을 보여주고 모델 복잡도를 분석한다.

제안 방법

  • 주파수 가이드 패치 선별(FPS)을 도입하여 패치 푸리에 스펙트럼으로부터 타깃 관련 밀도 맵을 구축한다.
  • 타깃 밀도 맵에 의해 안내되는 다중 스케일 임베딩을 강화하는 동적 임베딩 강화(DEE)를 개발한다.
  • 공간-주파수 일관성과 신뢰성을 이용해 객체 질의를 선택·정제하는 신뢰도-일관성 인식 융합(RCF)을 설계한다.
  • FPS, DEE, RCF를 하나의 DETR 기반 아키텍처(SEF-DETR)에 통합하고 헝가리언 손실과 패치-주파수 손실을 적용한다.
  • 학습 목표를 결합: L = L_hungarian + lambda * L_freq (lambda=2).
  • CNN 기반 지표(P, R, F1)와 AI-TOD DETR 유사 AP 지표를 사용하여 IRSTD-1k, NUAA-SIRST, NUDT-SIRST에서 평가한다.

실험 결과

연구 질문

  • RQ1왜 DETR 기반 IRSTD 모델에서 자기-주목이 대상 관련 임베딩을 희석시키는가?
  • RQ2주파수 도메인 사전지식이 IRSTD에서 대상 중심 질의 초기화 및 배경 오염 감소에 도움이 되는가?
  • RQ3FPS, DEE, RCF가 매우 작은 적외선 타깃의 탐지를 강화하는 데 상호 보완적 이점을 제공하는가?
  • RQ4SEF-DETR가 표준 벤치마크에서 최첨단 CNN 기반 및 DETR 유사 IRSTD 방법에 대해 어떻게 성능을 보이는가?

주요 결과

방법유형P (IRSTD-1k)R (IRSTD-1k)F1 (IRSTD-1k)P (NUAA-SIRST)R (NUAA-SIRST)F1 (NUAA-SIRST)P (NUDT-SIRST)R (NUDT-SIRST)F1 (NUDT-SIRST)
SEF-DETR (Ours)CNN-based92.485.989.094.897.396.1100.096.398.1
(Other CNN-based methods shown)----------
  • SEF-DETR은 CNN 기반 방법과 비교하여 IRSTD-1k, NUAA-SIRST, NUDT-SIRST에서 우수한 결과를 달성한다(예: SEF-DETR: IRSTD-1k P=92.4, R=85.9, F1=89.0; NUAA-SIRST P=94.8, R=97.3, F1=96.1; NUDT-SIRST P=100.0, R=96.3, F1=98.1).
  • DETR 유사 기반 대비 SEF-DETR은 특히 매우 작은 타깃에 대해 AP 지표에서 강한 개선을 보인다(AP vt).
  • 절삭 연구에서 FPS, DEE, RCF 각각이 성능 향상에 기여하는 것이 확인되었으며, 이들의 조합이 최상의 결과를 낳는다.
  • 고주파 및 저주파의 주파수 대역 모두가 성능에 이득을 주며 전체 스펙트럼을 사용할 때 최적의 결과를 얻는다.
  • DEE의 학습 가능 임계값과 RCF의 결합된 R과 C 융합은 고정 임계값 및 단순 융합보다 우수하다.
  • SEF-DETR은 매개변수와 FLOPs의 증가가 아주 작고(+0.27M 파라미터, +0.08G FLOPs)도 정확도 향상을 크게 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.