[论文解读] Detecting soccer balls with reduced neural networks: a comparison of multiple architectures under constrained hardware scenarios
本文评估了在资源受限硬件(如移动机器人CPU)上实时检测足球的轻量化神经网络架构——MobileNetV2、MobileNetV3、YOLOv3、TinyYOLOv3、YOLOv4和TinyYOLOv4。结果表明,MobileNetV3在CPU上实现了最佳的mAP与推理时间权衡;而YOLO系列模型尽管在GPU上表现优异,但在CPU上性能表现较差。
Object detection techniques that achieve state-of-the-art detection accuracy employ convolutional neural networks, implemented to have optimal performance in graphics processing units. Some hardware systems, such as mobile robots, operate under constrained hardware situations, but still benefit from object detection capabilities. Multiple network models have been proposed, achieving comparable accuracy with reduced architectures and leaner operations. Motivated by the need to create an object detection system for a soccer team of mobile robots, this work provides a comparative study of recent proposals of neural networks targeted towards constrained hardware environments, in the specific task of soccer ball detection. We train multiple open implementations of MobileNetV2 and MobileNetV3 models with different underlying architectures, as well as YOLOv3, TinyYOLOv3, YOLOv4 and TinyYOLOv4 in an annotated image data set captured using a mobile robot. We then report their mean average precision on a test data set and their inference times in videos of different resolutions, under constrained and unconstrained hardware configurations. Results show that MobileNetV3 models have a good trade-off between mAP and inference time in constrained scenarios only, while MobileNetV2 with high width multipliers are appropriate for server-side inference. YOLO models in their official implementations are not suitable for inference in CPUs.
研究动机与目标
- 评估最先进的轻量化神经网络在移动机器人中实时足球球检测中的表现。
- 解决在移动机器人中常见的资源受限CPU上部署深度学习模型的挑战。
- 比较不同硬件配置下的模型性能:仅CPU(i5-4210U)、高端GPU(V100)和服务器级CPU(Xeon)。
- 分析在多种输入分辨率(480p至4K)下的推理速度与平均精度均值(mAP)。
- 为嵌入式移动机器人场景中选择高效模型提供实用指导。
提出的方法
- 使用不同宽度乘数(0.35–1.0)和输入分辨率训练了MobileNetV2和MobileNetV3的开源实现。
- 使用其官方实现评估了YOLOv3、TinyYOLOv3、YOLOv4和TinyYOLOv4在相同数据集上的表现。
- 使用移动机器人拍摄的足球球图像自定义数据集,并进行目标检测标注。
- 在三种硬件平台(Intel i5-4210U CPU、NVIDIA Tesla V100 GPU、Intel Xeon Gold 5118 CPU)上测量了四种视频分辨率(480×360至1920×1080)下的每帧推理时间。
- 报告在保留测试集上的平均精度均值(mAP)以评估检测准确性。
- 对CPU与GPU平台上的推理时间分布进行Kolmogorov-Smirnov假设检验,以进行统计分析。
实验结果
研究问题
- RQ1与GPU相比,MobileNetV2和MobileNetV3在仅CPU硬件上的mAP与推理时间表现如何?
- RQ2输入分辨率与宽度乘数对基于MobileNet的模型的推理速度与准确性有何影响?
- RQ3为何YOLO与TinyYOLO模型尽管专为实时推理设计,却在CPU上表现不佳?
- RQ4在资源受限、仅CPU的移动机器人环境中,哪种模型架构在mAP与推理时间之间实现了最佳权衡?
- RQ5轻量化模型在不同硬件平台(CPU与GPU)及不同输入分辨率下的性能表现如何变化?
主要发现
- 在Intel i5-4210U CPU上,MobileNetV3模型实现了最高的mAP(78.4%)与最低的推理时间(55.2 ms),在资源受限环境中优于其他模型。
- 在NVIDIA Tesla V100 GPU上,MobileNetV2(宽度乘数1.0)实现了最佳mAP(85.1%)与最快推理时间(47.2 ms),表明其适用于服务器端部署。
- YOLOv3与TinyYOLOv3在i5-4210U CPU上的推理时间显著偏高(超过100 ms),表明其在CPU上兼容性差,尽管在GPU上表现优异。
- MobileNet模型的推理时间随输入分辨率降低而显著减少,从1920×1080降至480×360时,速度提升达40–50%。
- 统计分析确认,i5-4210U CPU与V100 GPU上的推理时间分布无显著差异(p = 0.97371),表明不同平台上的性能趋势相似。
- 在V100 GPU上,MobileNetV2(宽度乘数1.0)实现了最高mAP(85.1%);在i5-4210U CPU上,MobileNetV3(小型)实现了最佳mAP(78.4%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。