[论文解读] Unmanned Aerial Vehicle Visual Detection and Tracking using Deep Neural Networks: A Performance Benchmark
本论文提出了首个基于可见光与红外图像的深度学习无人机检测与跟踪综合基准,评估了四种目标检测器和三种跟踪器在三个多样化数据集上的表现。检测任务达到98.6%的mAP,跟踪任务达到98.7%的MOTA,展示了红外到可见光谱的跨模态迁移能力,mAP达82.8%。
Unmanned Aerial Vehicles (UAV) can pose a major risk for aviation safety, due to both negligent and malicious use. For this reason, the automated detection and tracking of UAV is a fundamental task in aerial security systems. Common technologies for UAV detection include visible-band and thermal infrared imaging, radio frequency and radar. Recent advances in deep neural networks (DNNs) for image-based object detection open the possibility to use visual information for this detection and tracking task. Furthermore, these detection architectures can be implemented as backbones for visual tracking systems, thereby enabling persistent tracking of UAV incursions. To date, no comprehensive performance benchmark exists that applies DNNs to visible-band imagery for UAV detection and tracking. To this end, three datasets with varied environmental conditions for UAV detection and tracking, comprising a total of 241 videos (331,486 images), are assessed using four detection architectures and three tracking frameworks. The best performing detector architecture obtains an mAP of 98.6% and the best performing tracking framework obtains a MOTA of 96.3%. Cross-modality evaluation is carried out between visible and infrared spectrums, achieving a maximal 82.8% mAP on visible images when training in the infrared modality. These results provide the first public multi-approach benchmark for state-of-the-art deep learning-based methods and give insight into which detection and tracking architectures are effective in the UAV domain.
研究动机与目标
- 建立一个标准化的、基于多数据集的无人机检测与跟踪深度神经网络基准。
- 在多样化环境与成像条件下,评估领先目标检测与跟踪架构的性能。
- 研究红外与可见光波段无人机图像之间的跨模态迁移学习。
- 识别在真实世界场景中用于反无人机应用的最鲁棒检测与跟踪框架。
- 提供一个公开的基准工具包,以加速自动化无人机检测与跟踪研究。
提出的方法
- 本研究在三个无人机数据集(MAV-VID、Drone-vs-Bird 和 Anti-UAV)上评估了四种目标检测架构——Faster R-CNN、YOLOv3、SSD512 和 DETR。
- 使用检测到的边界框作为输入,对三种跟踪框架——SORT、DeepSORT 和 Tracktor——进行评估,以实现时间关联。
- 通过在红外数据上训练检测器并在可见光图像上测试,反之亦然,开展跨模态评估。
- 基准采用标准指标:检测任务使用平均精度(mAP),跟踪任务使用多目标跟踪准确率(MOTA)。
- 数据集包含地面固定与无人机搭载的摄像头,捕捉不同距离、动态场景下的无人机,并覆盖光学与热红外条件。
- 评估覆盖多种环境条件,包括复杂背景、高速相机运动以及遮挡情况。
实验结果
研究问题
- RQ1在多样化环境条件下,哪种深度学习目标检测架构在可见光波段无人机图像上的mAP表现最高?
- RQ2跨模态训练(如红外到可见光)如何影响无人机检测性能?
- RQ3在具有挑战性的视觉条件下,哪种跟踪框架在追踪小型、高速移动的无人机时MOTA最高?
- RQ4相机运动与背景复杂性如何影响跟踪系统的性能?
- RQ5通用目标检测器在多大程度上可被有效适配用于无人机特定的检测与跟踪任务?
主要发现
- 表现最佳的检测器 YOLOv3 在可见光波段无人机图像上实现了98.6%的平均精度(mAP)。
- Faster R-CNN 在小尺寸无人机检测中表现最优,mAP高达0.770,表明其在早期检测中具有更强性能。
- Tracktor 跟踪框架实现了98.7%的最高MOTA,证明其在处理高速相机运动与长期跟踪方面的有效性。
- 通过在红外数据上训练并在可见光图像上测试实现的跨模态检测,mAP达到82.8%,证明了模态间有效的迁移能力。
- 基于DETR的检测主干网络表现出色(mAP > 0.94),在反无人机系统中适用于小目标跟踪。
- DeepSORT 和 Tracktor 中的重识别网络并未始终提升跟踪性能,甚至可能造成性能下降,表明需要开发面向无人机的专用重识别模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。