[論文レビュー] UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects
UFO-DETRはLSKNetバックボーン、変形可能注意、DynFreq-C3モジュールを用いた軽量なエンドツーエンドのUAV検出器で、小さな物体検出をリアルタイム効率で向上させる。
Small target detection in UAV imagery faces significant challenges such as scale variations, dense distribution, and the dominance of small targets. Existing algorithms rely on manually designed components, and general-purpose detectors are not optimized for UAV images, making it difficult to balance accuracy and complexity. To address these challenges, this paper proposes an end-to-end object detection framework, UFO-DETR, which integrates an LSKNet-based backbone network to optimize the receptive field and reduce the number of parameters. By combining the DAttention and AIFI modules, the model flexibly models multi-scale spatial relationships, improving multi-scale target detection performance. Additionally, the DynFreq-C3 module is proposed to enhance small target detection capability through cross-space frequency feature enhancement. Experimental results show that, compared to RT-DETR-L, the proposed method offers significant advantages in both detection performance and computational efficiency, providing an efficient solution for UAV edge computing.
研究の動機と目的
- スケール変動と密集シーン下でUAV画像における頑健な小物体検出を動機づける。
- NMSなしの軽量エンドツーエンド検出器を開発し、精度とエッジデバイス効率をバランスさせる。
- 動的受容野バックボーンと周波数対応モジュールを統合して小物体特徴を強化する。
- UAVの極小物体のための効率的なマルチスケール空間関係モデリングを実現する。
提案手法
- バックボーンとしてLSKNetを採用してパラメータ数と計算量を削減。
- AIFIにDAttentionを組み込み、スケール間でキー領域を動的にサンプリング。
- DynFreq-C3を導入して空間特徴と周波数領域特徴を融合し高周波の質感ディテールを強化。
- RT-DETRの構成要素をLSKNetバックボーンとDynFreq-C3ベースのクロス空間周波数デコーダ(CCFD)に置換してエンドツーエンド検出を実現。
- VisDrone2019で Mosaic拡張と標準オプティマイザを用いてエンドツーエンドで訓練し、リアルタイム性能を評価。
実験結果
リサーチクエスチョン
- RQ1軽量なバックボーンと動的受容野がUAVデータで小物体検出精度を維持できるか?
- RQ2変形可能注意は小型UAVターゲットのマルチスケール特徴融合を改善するか?
- RQ3空間周波数を横断しての融合は高周波ディテールの回復と複雑な背景での小物体識別を強化するか?
主な発見
| モデル | P/% | R/% | mAP50/% | GFLOPs | モデルサイズ/MB |
|---|---|---|---|---|---|
| YOLOv8-M | 53.5 | 37.4 | 40.7 | 78.9 | 52 |
| YOLOv8-L | 51.8 | 39.7 | 40.6 | 164.9 | 87.7 |
| YOLOv10-M | 49.9 | 36.7 | 37.9 | 63.5 | 33.5 |
| YOLOv10-L | 51.6 | 38.4 | 39.8 | 126.4 | 52.2 |
| YOLOv11-M | 51.8 | 38.1 | 39.6 | 67.7 | 40.5 |
| YOLOv11-L | 53.0 | 38.3 | 39.8 | 86.6 | 51.2 |
| RTDETR-L | 59.0 | 42.4 | 43.5 | 103.5 | 66.2 |
| RTDETR-R18 | 55.1 | 40.2 | 41.5 | 57.0 | 40.5 |
| RTDETR-R50 | 58.3 | 44.5 | 45.2 | 129.6 | 86.1 |
| Ours | 59.2 | 44.5 | 46.1 | 41.8 | 28.3 |
- UFO-DETRはRT-DETRベースラインより高い精度、リコール、mAP50を達成(P/%:59.2、R/%:44.5、mAP50/%:46.1 対比 59.0、42.4、43.5)。
- モデルはGFLOPsを41.8に、モデルサイズを28.3 MBに削減し、ベースラインより効率性が改善。
- LSKNetバックボーンはパラメータを削減し、精度は概ね同等を維持(ベースラインRT-DETR-R18の103.5 GFLOPsと66.2 MBから軽量化しつつ性能を維持)。
- DAttentionはリコールとmAP50をそれぞれ43.0%と44.2%に改善、AIFI単独のベースラインより向上。
- DynFreq-C3はエンドツーエンドフレームワーク内で小物体検出に追加の利得をもたらす。
- VisDrone2019でUFO-DETRは高精度と低計算コスト・リアルタイム推論を維持しつつ主流検出器より優れる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。