Skip to main content
QUICK REVIEW

[論文レビュー] Breaking Self-Attention Failure: Rethinking Query Initialization for Infrared Small Target Detection

Y. J. Liu, Duanni Meng|arXiv (Cornell University)|Jan 6, 2026
Infrared Target Detection Methodologies被引用数 0
ひとこと要約

SEF-DETRは周波数ガイド付きパッチスクリーニング、動的埋め込み強化、信頼性一貫性に基づく融合を導入し、DETRベースのIRSTDにおける埋め込み希薄化を克服して、3つのIRSTDデータセットで最先端の結果を達成する。

ABSTRACT

Infrared small target detection (IRSTD) faces significant challenges due to the low signal-to-noise ratio (SNR), small target size, and complex cluttered backgrounds. Although recent DETR-based detectors benefit from global context modeling, they exhibit notable performance degradation on IRSTD. We revisit this phenomenon and reveal that the target-relevant embeddings of IRST are inevitably overwhelmed by dominant background features due to the self-attention mechanism, leading to unreliable query initialization and inaccurate target localization. To address this issue, we propose SEF-DETR, a novel framework that refines query initialization for IRSTD. Specifically, SEF-DETR consists of three components: Frequency-guided Patch Screening (FPS), Dynamic Embedding Enhancement (DEE), and Reliability-Consistency-aware Fusion (RCF). The FPS module leverages the Fourier spectrum of local patches to construct a target-relevant density map, suppressing background-dominated features. DEE strengthens multi-scale representations in a target-aware manner, while RCF further refines object queries by enforcing spatial-frequency consistency and reliability. Extensive experiments on three public IRSTD datasets demonstrate that SEF-DETR achieves superior detection performance compared to state-of-the-art methods, delivering a robust and efficient solution for infrared small target detection task.

研究の動機と目的

  • 赤外線小目標検出(IRSTD)における自己注意がターゲット関連埋め込みを希薄化する理由を動機づけ・分析する。
  • 周波数領域の事前知識を活用してオブジェクトクエリを初期化・精錬するDETRベースのフレームワーク(SEF-DETR)を提案する。
  • FPS、DEE、RCFの各コンポーネントが複数データセットにわたって非常に小さな赤外ターゲット検出を共同で改善することを示す。
  • IRSTDベンチマークでの最先端性能を示し、モデルの複雑さを分析する。

提案手法

  • パッチのフーリエスペクトルからターゲット関連密度マップを構築する周波数ガイド付きパッチスクリーニング(FPS)を導入する。
  • ターゲット密度マップに導かれたマルチスケール埋め込みを強化する動的埋め込み強化(DEE)を開発する。
  • 空間周波数整合性と信頼性を用いてオブジェクトクエリを選択・精錬する信頼性一貫性-aware融合(RCF)を設計する。
  • FPS、DEE、RCFをHungarian損失とパッチ周波数損失を備えたDETRベースアーキテクチャ(SEF-DETR)に統合する。
  • 学習ターゲットをL = L_hungarian + lambda * L_freq (lambda=2)として統合的に最適化する。
  • IRSTD-1k、NUAA-SIRST、NUDT-SIRSTをCNNベースの指標(P, R, F1)およびAI-TOD DETR型AP指標で評価する。

実験結果

リサーチクエスチョン

  • RQ1DETRベースのIRSTDモデルにおいて自己注意はなぜターゲット関連の埋め込みを希薄化するのか?
  • RQ2周波数領域の事前情報はターゲット焦点のクエリ初期化を改善し、IRSTDで背景汚染を抑制できるか?
  • RQ3FPS、DEE、RCFは極めて小さな赤外ターゲット検出の性能向上に補完的な効果をもたらすか?
  • RQ4SEF-DETRは標準ベンチマークにおける最先端のCNNベースおよびDETR風IRSTD手法と比較してどの程度性能を発揮するか?

主な発見

MethodTypeP (IRSTD-1k)R (IRSTD-1k)F1 (IRSTD-1k)P (NUAA-SIRST)R (NUAA-SIRST)F1 (NUAA-SIRST)P (NUDT-SIRST)R (NUDT-SIRST)F1 (NUDT-SIRST)
SEF-DETR (Ours)CNN-based92.485.989.094.897.396.1100.096.398.1
(Other CNN-based methods shown)----------
  • SEF-DETRはIRSTD-1k、NUAA-SIRST、NUDT-SIRSTにおいてCNNベース手法と比較して優れた結果を達成する(例:SEF-DETR: IRSTD-1k P=92.4, R=85.9, F1=89.0; NUAA-SIRST P=94.8, R=97.3, F1=96.1; NUDT-SIRST P=100.0, R=96.3, F1=98.1)。
  • DETR風ベースラインと比較して、SEF-DETRはAP指標で強い改善を示し、特に非常に小さなターゲットで顕著(AP vt)。
  • アブレーション研究により、FPS、DEE、RCFの各要素が性能向上に寄与し、それらの組み合わせが最良の結果を生むことを確認する。
  • 周波数帯は高周波成分と低周波成分の両方が性能を向上させ、全スペクトルを用いると最良の結果になる。
  • DEEの学習可能な閾値とRCFのRとCの結合融合は、固定閾値や単純な融合を上回る。
  • SEF-DETRはパラメータとFLOPsの増加が小さく(+0.27Mパラメータ、+0.08G FLOPs)一方で大幅な精度向上をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。