[論文レビュー] Breaking Self-Attention Failure: Rethinking Query Initialization for Infrared Small Target Detection
SEF-DETRは周波数ガイド付きパッチスクリーニング、動的埋め込み強化、信頼性一貫性に基づく融合を導入し、DETRベースのIRSTDにおける埋め込み希薄化を克服して、3つのIRSTDデータセットで最先端の結果を達成する。
Infrared small target detection (IRSTD) faces significant challenges due to the low signal-to-noise ratio (SNR), small target size, and complex cluttered backgrounds. Although recent DETR-based detectors benefit from global context modeling, they exhibit notable performance degradation on IRSTD. We revisit this phenomenon and reveal that the target-relevant embeddings of IRST are inevitably overwhelmed by dominant background features due to the self-attention mechanism, leading to unreliable query initialization and inaccurate target localization. To address this issue, we propose SEF-DETR, a novel framework that refines query initialization for IRSTD. Specifically, SEF-DETR consists of three components: Frequency-guided Patch Screening (FPS), Dynamic Embedding Enhancement (DEE), and Reliability-Consistency-aware Fusion (RCF). The FPS module leverages the Fourier spectrum of local patches to construct a target-relevant density map, suppressing background-dominated features. DEE strengthens multi-scale representations in a target-aware manner, while RCF further refines object queries by enforcing spatial-frequency consistency and reliability. Extensive experiments on three public IRSTD datasets demonstrate that SEF-DETR achieves superior detection performance compared to state-of-the-art methods, delivering a robust and efficient solution for infrared small target detection task.
研究の動機と目的
- 赤外線小目標検出(IRSTD)における自己注意がターゲット関連埋め込みを希薄化する理由を動機づけ・分析する。
- 周波数領域の事前知識を活用してオブジェクトクエリを初期化・精錬するDETRベースのフレームワーク(SEF-DETR)を提案する。
- FPS、DEE、RCFの各コンポーネントが複数データセットにわたって非常に小さな赤外ターゲット検出を共同で改善することを示す。
- IRSTDベンチマークでの最先端性能を示し、モデルの複雑さを分析する。
提案手法
- パッチのフーリエスペクトルからターゲット関連密度マップを構築する周波数ガイド付きパッチスクリーニング(FPS)を導入する。
- ターゲット密度マップに導かれたマルチスケール埋め込みを強化する動的埋め込み強化(DEE)を開発する。
- 空間周波数整合性と信頼性を用いてオブジェクトクエリを選択・精錬する信頼性一貫性-aware融合(RCF)を設計する。
- FPS、DEE、RCFをHungarian損失とパッチ周波数損失を備えたDETRベースアーキテクチャ(SEF-DETR)に統合する。
- 学習ターゲットをL = L_hungarian + lambda * L_freq (lambda=2)として統合的に最適化する。
- IRSTD-1k、NUAA-SIRST、NUDT-SIRSTをCNNベースの指標(P, R, F1)およびAI-TOD DETR型AP指標で評価する。
実験結果
リサーチクエスチョン
- RQ1DETRベースのIRSTDモデルにおいて自己注意はなぜターゲット関連の埋め込みを希薄化するのか?
- RQ2周波数領域の事前情報はターゲット焦点のクエリ初期化を改善し、IRSTDで背景汚染を抑制できるか?
- RQ3FPS、DEE、RCFは極めて小さな赤外ターゲット検出の性能向上に補完的な効果をもたらすか?
- RQ4SEF-DETRは標準ベンチマークにおける最先端のCNNベースおよびDETR風IRSTD手法と比較してどの程度性能を発揮するか?
主な発見
| Method | Type | P (IRSTD-1k) | R (IRSTD-1k) | F1 (IRSTD-1k) | P (NUAA-SIRST) | R (NUAA-SIRST) | F1 (NUAA-SIRST) | P (NUDT-SIRST) | R (NUDT-SIRST) | F1 (NUDT-SIRST) |
|---|---|---|---|---|---|---|---|---|---|---|
| SEF-DETR (Ours) | CNN-based | 92.4 | 85.9 | 89.0 | 94.8 | 97.3 | 96.1 | 100.0 | 96.3 | 98.1 |
| (Other CNN-based methods shown) | - | - | - | - | - | - | - | - | - | - |
- SEF-DETRはIRSTD-1k、NUAA-SIRST、NUDT-SIRSTにおいてCNNベース手法と比較して優れた結果を達成する(例:SEF-DETR: IRSTD-1k P=92.4, R=85.9, F1=89.0; NUAA-SIRST P=94.8, R=97.3, F1=96.1; NUDT-SIRST P=100.0, R=96.3, F1=98.1)。
- DETR風ベースラインと比較して、SEF-DETRはAP指標で強い改善を示し、特に非常に小さなターゲットで顕著(AP vt)。
- アブレーション研究により、FPS、DEE、RCFの各要素が性能向上に寄与し、それらの組み合わせが最良の結果を生むことを確認する。
- 周波数帯は高周波成分と低周波成分の両方が性能を向上させ、全スペクトルを用いると最良の結果になる。
- DEEの学習可能な閾値とRCFのRとCの結合融合は、固定閾値や単純な融合を上回る。
- SEF-DETRはパラメータとFLOPsの増加が小さく(+0.27Mパラメータ、+0.08G FLOPs)一方で大幅な精度向上をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。