QUICK REVIEW

[论文解读] YOLOv4: Optimal Speed and Accuracy of Object Detection

Alexey Bochkovskiy, Chien-Yao Wang|arXiv (Cornell University)|Apr 23, 2020

Advanced Neural Network Applications参考文献 101被引用 10,401

一句话总结

本文提出 YOLOv4，一种实时目标检测器，在单GPU上通过结合新特征（Bag of Freebies 和 Bag of Specials）以及经过优化的骨干网络（CSPDarknet53），并配合 SPP 和 PANet 颈部，在实时速度下实现了当前最先进的精度，在 MS COCO 上得到验证。

ABSTRACT

There are a huge number of features which are said to improve Convolutional Neural Network (CNN) accuracy. Practical testing of combinations of such features on large datasets, and theoretical justification of the result, is required. Some features operate on certain models exclusively and for certain problems exclusively, or only for small-scale datasets; while some features, such as batch-normalization and residual-connections, are applicable to the majority of models, tasks, and datasets. We assume that such universal features include Weighted-Residual-Connections (WRC), Cross-Stage-Partial-connections (CSP), Cross mini-Batch Normalization (CmBN), Self-adversarial-training (SAT) and Mish-activation. We use new features: WRC, CSP, CmBN, SAT, Mish activation, Mosaic data augmentation, CmBN, DropBlock regularization, and CIoU loss, and combine some of them to achieve state-of-the-art results: 43.5% AP (65.7% AP50) for the MS COCO dataset at a realtime speed of ~65 FPS on Tesla V100. Source code is at https://github.com/AlexeyAB/darknet

研究动机与目标

开发在传统 GPU 上可用的快速实时目标检测器
研究最前沿训练与架构特征对检测器精度的影响
设计为单 GPU 训练与推理优化的 backbone/neck/head 组合
评估并将所提出模型在速度/精度方面与当代检测器进行比较
提供可重复的设置，使在标准 GPU 上进行训练成为可能，无需 SyncBN 或多 GPU 设置。

提出的方法

采用 CSPDarknet53 骨干网络，配合 SPP 与 PANet 颈部，以及类似 YOLOv3 的头部，构成 YOLOv4 架构。
使用 Bag of Freebies（BoF），包括 Mosaic 数据增强、CutMix、标签平滑、DropBlock 和 Mish 激活。
采用 Bag of Specials（BoS），如 Mish 激活、CSP 和 MiWRC，以在最小的推理开销下提升性能。
应用 CIoU 损失、CmBN、DropBlock、Mosaic/SAT 数据增强、多锚点训练、余弦退火以及优化的超参数。
进行广泛的消融研究，以评估 BoF/BoS 组件在 ImageNet 和 MS COCO 上对分类器和检测器性能的影响。
在 Tesla V100 上使用 608x608 输入，展示近似 65 FPS 的实时性能，并在 COCO 上达到 43.5% AP。

实验结果

研究问题

RQ1在单个 GPU 上实现实时检测时，哪种 backbone、neck、head 的组合能实现最佳的速度—精度权衡？
RQ2Bag of Freebies 与 Bag of Specials 的改进如何在不增加推理成本的前提下提升检测器精度？
RQ3通过修改归一化和数据增强实现单 GPU 训练，是否能达到 COCO 的最新水平？
RQ4YOLOv4 与当前检测器在常见 GPU 上的速度和精度对比如何？
RQ5对于快速、精准的检测器，最优的训练超参数和数据增强策略是什么？

主要发现

模型	骨干网络	尺寸	FPS	AP	AP50	AP75	AP_S	AP_M	AP_L
YOLOv4	CSPDarknet-53	416	38 (M)	41.2%	62.8%	44.3%	20.4%	44.4%	56.0%
YOLOv4	CSPDarknet-53	512	31 (M)	43.0%	64.9%	46.5%	24.3%	46.1%	55.2%
YOLOv4	CSPDarknet-53	608	23 (M)	43.5%	65.7%	47.3%	26.7%	46.7%	53.3%

YOLOv4 在 Tesla V100 上对 MS COCO 实现 43.5% AP（65.7% AP50）约 65 FPS。
CSPDarknet53 骨干网络配合 SPP 和 PANet 颈部在 COCO 目标检测中优于其他方案，同时实现实时速度。
BoF 方法（CutMix、Mosaic、标签平滑、DropBlock、Mish 激活）在不增加推理成本的前提下提升分类器/检测器性能。
BoS 组件（Mish、SPP、SAM、PAN、DIoU-NMS）在可控 FPS 下提升 AP，基于 CSPDarknet53 的检测器显示出强劲结果。
在 416、512 和 608 输入尺寸下，YOLOv4 实现逐步更高的 AP 值及相应的 FPS：例如 416: AP 41.2%，FPS 38；512: AP 43.0%，FPS 31；608: AP 43.5%，FPS 23。
该模型在单个 GPU 上运行，无需 SyncBN，从而提高可重复性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。