[论文解读] Real-Time Flying Object Detection with YOLOv8
本文提出了一种基于YOLOv8的一般化检测器,在40种飞行物体类别上进行训练,并通过对现实世界数据的迁移学习进行 refined,达到1080p下的50 fps,mAP50-95为0.685(泛化)和0.835(精炼/经改进)。
This paper presents a generalized model for real-time detection of flying objects that can be used for transfer learning and further research, as well as a refined model that achieves state-of-the-art results for flying object detection. We achieve this by training our first (generalized) model on a data set containing 40 different classes of flying objects, forcing the model to extract abstract feature representations. We then perform transfer learning with these learned parameters on a data set more representative of real world environments (i.e. higher frequency of occlusion, very small spatial sizes, rotations, etc.) to generate our refined model. Object detection of flying objects remains challenging due to large variances of object spatial sizes/aspect ratios, rate of speed, occlusion, and clustered backgrounds. To address some of the presented challenges while simultaneously maximizing performance, we utilize the current state-of-the-art single-shot detector, YOLOv8, in an attempt to find the best trade-off between inference speed and mean average precision (mAP). While YOLOv8 is being regarded as the new state-of-the-art, an official paper has not been released as of yet. Thus, we provide an in-depth explanation of the new architecture and functionality that YOLOv8 has adapted. Our final generalized model achieves a mAP50 of 79.2%, mAP50-95 of 68.5%, and an average inference speed of 50 frames per second (fps) on 1080p videos. Our final refined model maintains this inference speed and achieves an improved mAP50 of 99.1% and mAP50-95 of 83.5%
研究动机与目标
- 促进迁移学习和实际部署的实时飞行物体检测。
- 开发一个在多样化飞行物体类别上训练的泛化模型,以学习抽象特征。
- 应用迁移学习以适应现实世界条件中的遮挡、微小物体和旋转。
- 利用YOLOv8实现快速推理并比较速度与精度权衡。
- 提供一个精炼、可直接用于实时部署的模型。
提出的方法
- 采用YOLOv8作为检测器并以COCO预训练权重初始化。
- 在一个包含40类飞行物体的数据集上,对小/中/大尺寸的YOLOv8变体进行163个时期的训练,以选择最佳权衡(中等模型)。
- 通过在具有更高遮挡和尺度变化的现实世界类数据集上进一步训练,执行迁移学习。
- 使用包括CIoU用于框回归,二元交叉熵用于分类,以及具有指定权重的分布聚焦损失(λ_box、λ_cls、λ_dfl)。
- 使用mAP50-95和1080p推理速度进行评估(目标30–60 fps)。
- 使用激活映射分析激活及错误分类,以理解特征表示和混淆(例如F-14对F-18)。
实验结果
研究问题
- RQ1像YOLOv8这类单阶段检测器是否能够在高分辨率下实现对多样化飞行物体类别的实时检测?
- RQ2从通用飞行物体数据集进行的迁移学习在现实世界、遮挡和微小物体场景中是否提升性能?
- RQ3该任务中模型规模、推理速度与mAP50-95之间的权衡是什么?
- RQ4激活模式如何与相似机型之间的类别混淆相关?
- RQ5精炼模型是否可直接用于实时部署?
主要发现
- 泛化模型在1080p视频上达到mAP50-95为0.685,速度为50 fps。
- 通过迁移学习得到的精炼模型保持50 fps并将mAP50-95提升至0.835。
- 中等YOLOv8模型在测试尺寸中提供最佳的速度与精度平衡(小、中、大)。
- 使用40类飞行物体进行训练,有助于学习适合迁移的抽象特征,尤其是对微小或伪装对象。
- 激活映射分析揭示更深的CSPDarknet53阶段如何聚焦于细粒度特征,并能解释不同类别之间的混淆(例如F-14与F-18)。
- 精炼模型在具有挑战性的场景中对远处的鸟类和非常小的物体(如无人机、直升机)表现出稳健检测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。