[论文解读] UFO-DETR: Frequency-Guided End-to-End Detector for UAV Tiny Objects
UFO-DETR 是一个轻量级端到端的无人机检测器,采用 LSKNet 主干、变形注意力和 DynFreq-C3 模块以提升对小目标的检测,同时保持实时效率。
Small target detection in UAV imagery faces significant challenges such as scale variations, dense distribution, and the dominance of small targets. Existing algorithms rely on manually designed components, and general-purpose detectors are not optimized for UAV images, making it difficult to balance accuracy and complexity. To address these challenges, this paper proposes an end-to-end object detection framework, UFO-DETR, which integrates an LSKNet-based backbone network to optimize the receptive field and reduce the number of parameters. By combining the DAttention and AIFI modules, the model flexibly models multi-scale spatial relationships, improving multi-scale target detection performance. Additionally, the DynFreq-C3 module is proposed to enhance small target detection capability through cross-space frequency feature enhancement. Experimental results show that, compared to RT-DETR-L, the proposed method offers significant advantages in both detection performance and computational efficiency, providing an efficient solution for UAV edge computing.
研究动机与目标
- 在尺度变化和密集场景下,推动鲁棒的小目标检测在无人机影像中的应用。
- 开发一个无 NMS 的轻量端到端检测器,在精度和边缘设备效率之间取得平衡。
- 整合动态感受野主干和频率感知模块以提升小目标特征。
- 实现对无人机微小目标的高效多尺度空间关系建模。
提出的方法
- 采用 LSKNet 作为主干以减少参数和计算量。
- 将 DAttention 引入 AIFI,以跨尺度动态采样关键区域。
- 引入 DynFreq-C3 将时空域特征与频域特征融合,获得高频纹理细节。
- 用 LSKNet 主干和基于 DynFreq-C3 的跨空间–频率解码器 (CCFD) 取代 RT-DETR 组件,实现端到端检测。
- 在 VisDrone2019 数据集上进行端到端训练,采用 Mosaic 增广和标准优化器以评估实时性能。
实验结果
研究问题
- RQ1轻量级主干配合动态感受野是否能在无人机数据上保持小目标检测精度?
- RQ2变形注意力是否能改善对小型无人机目标的多尺度特征融合?
- RQ3跨空间-频率融合是否能提升高频细节恢复与复杂背景下的小目标判别?
主要发现
| 模型 | P/% | R/% | mAP50/% | GFLOPs | 模型大小/MB |
|---|---|---|---|---|---|
| YOLOv8-M | 53.5 | 37.4 | 40.7 | 78.9 | 52 |
| YOLOv8-L | 51.8 | 39.7 | 40.6 | 164.9 | 87.7 |
| YOLOv10-M | 49.9 | 36.7 | 37.9 | 63.5 | 33.5 |
| YOLOv10-L | 51.6 | 38.4 | 39.8 | 126.4 | 52.2 |
| YOLOv11-M | 51.8 | 38.1 | 39.6 | 67.7 | 40.5 |
| YOLOv11-L | 53.0 | 38.3 | 39.8 | 86.6 | 51.2 |
| RTDETR-L | 59.0 | 42.4 | 43.5 | 103.5 | 66.2 |
| RTDETR-R18 | 55.1 | 40.2 | 41.5 | 57.0 | 40.5 |
| RTDETR-R50 | 58.3 | 44.5 | 45.2 | 129.6 | 86.1 |
| Ours | 59.2 | 44.5 | 46.1 | 41.8 | 28.3 |
- UFO-DETR 在精度、召回率和 mAP50 上均高于 RT-DETR 基线(P 59.2%、R 44.5%、mAP50 46.1% 对比 P 59.0%、R 42.4%、mAP50 43.5%)。
- 模型将 GFLOPs 降至 41.8,模型大小降至 28.3 MB,显示出相较基线的效率提升。
- LSKNet 主干减少参数量且保持可比精度(基线 RT-DETR-R18 为 103.5 GFLOPs、66.2 MB,采用 LSKNet 后更轻量同时保持性能)。
- DAttention 相较仅使用 AIFI 的基线,在 Recall 和 mAP50 上分别提升至 43.0% 和 44.2%。
- DynFreq-C3 在端到端框架中对小目标检测贡献额外提升。
- 在 VisDrone2019 上,UFO-DETR 在准确性方面优于主流检测器,同时保持低计算成本和实时推理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。