Skip to main content
QUICK REVIEW

[论文解读] Scaled-YOLOv4: Scaling Cross Stage Partial Network

Chien-Yao Wang, Alexey Bochkovskiy|arXiv (Cornell University)|Nov 16, 2020
Advanced Neural Network Applications参考文献 46被引用 129
一句话总结

本文提出 scaled-YOLOv4,一种基于 CSP 的缩放框架,通过在深度、宽度、分辨率和结构上扩展或收缩 YOLOv4,在各种设备上实现实时速度的同时达到最先进的精度,其中 YOLOv4-large 在 COCO 上达到 55.5% AP,约 16 FPS;YOLOv4-tiny 在 RTX 2080Ti 上以 FP16 TensorRT 达到约 1774 FPS。

ABSTRACT

We show that the YOLOv4 object detection neural network based on the CSP approach, scales both up and down and is applicable to small and large networks while maintaining optimal speed and accuracy. We propose a network scaling approach that modifies not only the depth, width, resolution, but also structure of the network. YOLOv4-large model achieves state-of-the-art results: 55.5% AP (73.4% AP50) for the MS COCO dataset at a speed of ~16 FPS on Tesla V100, while with the test time augmentation, YOLOv4-large achieves 56.0% AP (73.3 AP50). To the best of our knowledge, this is currently the highest accuracy on the COCO dataset among any published work. The YOLOv4-tiny model achieves 22.0% AP (42.0% AP50) at a speed of 443 FPS on RTX 2080Ti, while by using TensorRT, batch size = 4 and FP16-precision the YOLOv4-tiny achieves 1774 FPS.

研究动机与目标

  • 推动在广泛计算平台上保持高精度的可扩展目标检测器。
  • 通过基于 CSP 的缩放扩展 YOLOv4,以生成小型(tiny)和大型(P5/P6/P7)变体。
  • 通过对输入尺寸、深度、宽度和网络结构的原则性缩放来平衡速度与精度。

提出的方法

  • 将 YOLOv4 重新设计为 YOLOv4-CSP,以优化速度与精度的权衡。
  • 制定缩放指南,涵盖大模型的输入尺寸、#阶段、深度和宽度,以及 tiny 模型的通道/结构调整。
  • 引入 CSPOSANet 和基于 PCB 的通道分区,以减少 tiny 模型的 MACs 和内存带宽。
  • 对大模型在输入尺寸和网络深度上应用复合缩放,然后在实时约束下进行宽度缩放。
  • 使用 SGD 和自定义数据增强从头训练缩放模型(不使用 ImageNet 预训练);并用 COCO 指标进行评估。

实验结果

研究问题

  • RQ1如何系统性地将 CSP 基于缩放应用于小型和大型 YOLOv4 变体,以在不同硬件上最大化速度与精度?
  • RQ2在进行目标检测模型的放大或缩小时,上限、下限以及关键因素是什么?
  • RQ3CSP 化如何影响 YOLOv4 变体的参数量、FLOPs、吞吐量和 AP?
  • RQ4Scaled-YOLOv4 能否在嵌入式及高端 GPU 上实现实时推理的同时,达到 COCO 的最先进结果?

主要发现

  • YOLOv4-large 在 Tesla V100 上以 ~16 FPS 实现 55.5% AP(73.4% AP50);采用 TTA 时为 56.0% AP。
  • YOLOv4-tiny 在 RTX 2080Ti 上以 ~443 FPS 实现 22.0% AP(42.0% AP50);TensorRT FP16、batch 4 可达 1774 FPS。
  • Scaled-YOLOv4 的变体在速度与精度权衡方面是帕累托最优的;CSP 化在提升 AP 的同时降低了参数量和 FLOPs。
  • 采用 CSPOSANet 和 PCB 设计的 YOLOv4-tiny 在计算量低的情况下提供具有竞争力的 AP,能够在嵌入式 GPU 上实现实时检测。
  • 测试时增强对大模型的 AP 有适度提升(例如 +0.5–1.1 个百分点)。
  • Scaled-YOLOv4-tiny 与 scaled-YOLOv4-large 在相应精度水平下提供与 EfficientDet 及其他检测器竞争的速度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。