QUICK REVIEW

[论文解读] UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery

Huaxiang Zhang, Kai Liu|arXiv (Cornell University)|Jan 3, 2025

Robotics and Sensor-Based Localization被引用 6

一句话总结

UAV-DETR 是一个端到端的基于 DETR 的检测器，针对无人机图像定制，引入多尺度特征融合与频率增强、频率关注的下采样以及语义对齐，以在提升对小目标/遮挡目标检测的同时实现实时推理。

ABSTRACT

Unmanned aerial vehicle object detection (UAV-OD) has been widely used in various scenarios. However, most existing UAV-OD algorithms rely on manually designed components, which require extensive tuning. End-to-end models that do not depend on such manually designed components are mainly designed for natural images, which are less effective for UAV imagery. To address such challenges, this paper proposes an efficient detection transformer (DETR) framework tailored for UAV imagery, i.e., UAV-DETR. The framework includes a multi-scale feature fusion with frequency enhancement module, which captures both spatial and frequency information at different scales. In addition, a frequency-focused down-sampling module is presented to retain critical spatial details during down-sampling. A semantic alignment and calibration module is developed to align and fuse features from different fusion paths. Experimental results demonstrate the effectiveness and generalization of our approach across various UAV imagery datasets. On the VisDrone dataset, our method improves AP by 3.1\% and $ ext{AP}_{50}$ by 4.2\% over the baseline. Similar enhancements are observed on the UAVVaste dataset. The project page: https://github.com/ValiantDiligent/UAV-DETR

研究动机与目标

激发对端到端无人机对象检测的需求，避免手工设计的组件和调优。
开发一个适用于无人机图像中存在小目标和遮挡挑战的端到端的类似 DETR 的框架。
引入带有频率增强的多尺度特征融合，以保留高频细节。
提出一个以频域为焦点的下采样模块，在分辨率降低时保持空间细节。
设计一个语义对齐与校准模块，用于融合来自不同融合路径的特征。

提出的方法

提出基于 RT-DETR 的 UAV-DETR，包含三个模块：MSFF-FE、FD 与 SAC。
MSFF-FE 通过在多尺度上结合空间信息与频率信息来保留高频细节。
FD 通过并行路径和以频率为焦点的处理实现下采样，同时保留双域信息。
SAC 使用学习得到的二维偏移和门控机制对不同融合路径的特征进行对齐和融合。
引入 Inner-SIoU 损失以提升小目标检测和收敛性。

实验结果

研究问题

RQ1如何将频域信息与多尺度空间特征结合以提升无人机目标检测？
RQ2一种以频率为焦点的下采样策略能否在不牺牲效率的情况下保留小目标细节？
RQ3多路径融合特征的语义对齐是否能提升端到端的无人机对象检测性能？
RQ4在 VisDrone 和 UAVVaste 数据集上，UAV-DETR 的性能如何与实时无人机检测器相比？
RQ5Inner-SIoU 损失对无人机影像边界框回归的影响？

主要发现

在 VisDrone 上，UAV-DETR-R18 相较 RT-DETR-R18 基线的 AP 提升 3.1%、AP50 提升 4.2%；UAV-DETR-R50 相较基线的 AP 提升 3.1%、AP50 提升 4.1%。
UAV-DETR-R18 在 GFLOPs 小于 100 的检测器中达到最先进的精度。
在 UAVASTE 上，UAV-DETR-R18 在 AP 上提升 3.3%，在 AP50 上平均提升 3.6% 相对于 RT-DETR 基线。
消融研究表明 Inner-SIoU、MSFF-FE、FD 和 SAC 各自对精度提升有贡献，所有模块结合时得到最高的 AP/AP50。
该模型在保持实时推理速度（FPS）的同时，在相近计算预算下提供比可比检测器更高的准确性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。