Skip to main content
QUICK REVIEW

[论文解读] Pelee: A Real-Time Object Detection System on Mobile Devices

Robert J. Wang, Xiang Li|arXiv (Cornell University)|Apr 18, 2018
Advanced Neural Network Applications参考文献 19被引用 101
一句话总结

本文提出 PeleeNet 以及基于 SSD 的实时检测系统(Pelee),使用传统卷积实现,在移动硬件上实现高准确性和实时速度,且在准确性与效率上超越多种移动检测器。

ABSTRACT

An increasing need of running Convolutional Neural Network (CNN) models on mobile devices with limited computing power and memory resource encourages studies on efficient model design. A number of efficient architectures have been proposed in recent years, for example, MobileNet, ShuffleNet, and MobileNetV2. However, all these models are heavily dependent on depthwise separable convolution which lacks efficient implementation in most deep learning frameworks. In this study, we propose an efficient architecture named PeleeNet, which is built with conventional convolution instead. On ImageNet ILSVRC 2012 dataset, our proposed PeleeNet achieves a higher accuracy and over 1.8 times faster speed than MobileNet and MobileNetV2 on NVIDIA TX2. Meanwhile, PeleeNet is only 66% of the model size of MobileNet. We then propose a real-time object detection system by combining PeleeNet with Single Shot MultiBox Detector (SSD) method and optimizing the architecture for fast speed. Our proposed detection system2, named Pelee, achieves 76.4% mAP (mean average precision) on PASCAL VOC2007 and 22.4 mAP on MS COCO dataset at the speed of 23.6 FPS on iPhone 8 and 125 FPS on NVIDIA TX2. The result on COCO outperforms YOLOv2 in consideration of a higher precision, 13.6 times lower computational cost and 11.3 times smaller model size.

研究动机与目标

  • 在具有有限计算与内存的设备上推动实时 CNN 的应用。
  • 设计高效的 CNN(PeleeNet),使用传统卷积而非深度可分离卷积。
  • 将 PeleeNet 与优化的基于 SSD 的检测器(Pelee)集成,实现移动硬件上的快速目标检测。
  • 在移动设备上评估速度-准确度权衡,并与最先进的检测器进行比较。

提出的方法

  • 提出 PeleeNet,一种受 DenseNet 启发的网络,具有 2 路密集层、干道块、动态瓶颈通道以及后激活以加快推理。
  • 采用带有 5 个特征图尺度(19×19、10×10、5×5、3×3、1×1)且在预测前置的残差预测块的基于 SSD 的检测器。
  • 使用 1×1 卷积核进行预测以降低 FLOPs 和模型大小,同时保持准确性。
  • 在 ImageNet 上微调并训练 PeleeNet,在 VOC2007 和 COCO 数据集上评估;在 TX2 上优化 FP16,在 iPhone 8 上优化 CoreML。
  • 与 MobileNet、ShuffleNet、YOLOv2 及 SSD 变体进行对比,以展示速度-准确度提升。

实验结果

研究问题

  • RQ1一个使用传统卷积(非深度可分离卷积)构建的卷积网络,能否在移动视觉任务中以更小的模型尺寸实现具竞争力的准确性?
  • RQ2将 PeleeNet 与基于 SSD 的检测器结合并采用特定设计,是否能在移动设备上实现实时推理且不牺牲准确性?
  • RQ35 个特征图尺度、残差预测块、以及 1×1 卷积核等设计选择,如何影响嵌入式硬件上的准确性与速度?
  • RQ4相对于在 VOC 与 COCO 基准测试上的已建立检测器(例如 YOLOv2、SSD-MobileNet),Pelee 在 mAP 与计算成本方面的表现如何?

主要发现

模型输入维度FLOPs模型大小(参数量)数据mAP (%)
Pelee (VOC07)304x3041,210 M5.43 M07+1270.9
Pelee (COCO)304x3041,210 M5.43 M07+12+COCO76.4
  • PeleeNet 在 ImageNet ILSVRC 2012 上达到 72.6% 的 top-1 准确率,FLOPs 为 508 MFLOPs,参数量为 2.8M,与具有相似或更小模型规模的 MobileNet 和 ShuffleNet 相比具有更好表现。
  • Pelee(使用 PeleeNet 特征的基于 SSD 的检测器)在 VOC07 上达到 76.4% mAP,在 COCO 上达到 22.4 mAP,其模型大小和 FLOPs 远低于竞争检测器。
  • 在真实设备上,Pelee 在 iPhone 8 上以 23.6 FPS、在 NVIDIA TX2 上以 FP16 的 125 FPS 运行,速度优于 SSD+MobileNet 的变体,且在准确性上通常也更优。
  • 在 COCO test-dev2015 上,Pelee 的 mAP 高于 SSD+MobileNet 与 YOLOv2,且速度比 YOLOv2 快 3.7×,模型大小小 11.3×。
  • 与 YOLOv2 相比,Pelee 在 COCO 上显示出更高的精度以及显著更低的计算成本与模型大小。
  • 残差预测块和 1×1 卷积核的设计选择有助于在保持竞争性准确性的同时降低 FLOPs 与参数量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。