QUICK REVIEW

[论文解读] YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

Chien-Yao Wang, Alexey Bochkovskiy|arXiv (Cornell University)|Jul 6, 2022

Advanced Neural Network Applications被引用 834

一句话总结

YOLOv7 引入可训练的 freebies 来提高实时目标检测精度且不增加推理成本，达到最优的速度-精度权衡，并在 MS COCO 上从头训练。

ABSTRACT

YOLOv7 surpasses all known object detectors in both speed and accuracy in the range from 5 FPS to 160 FPS and has the highest accuracy 56.8% AP among all known real-time object detectors with 30 FPS or higher on GPU V100. YOLOv7-E6 object detector (56 FPS V100, 55.9% AP) outperforms both transformer-based detector SWIN-L Cascade-Mask R-CNN (9.2 FPS A100, 53.9% AP) by 509% in speed and 2% in accuracy, and convolutional-based detector ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) by 551% in speed and 0.7% AP in accuracy, as well as YOLOv7 outperforms: YOLOR, YOLOX, Scaled-YOLOv4, YOLOv5, DETR, Deformable DETR, DINO-5scale-R50, ViT-Adapter-B and many other object detectors in speed and accuracy. Moreover, we train YOLOv7 only on MS COCO dataset from scratch without using any other datasets or pre-trained weights. Source code is released in https://github.com/WongKinYiu/yolov7.

研究动机与目标

促使实时目标检测器在不提高推理成本的情况下提升精度。
提出可训练的训练时提升方法（freebies）以提升性能。
解决在多头训练中出现的重参数化和动态标签分配问题。
为基于拼接的架构引入扩展缩放和复合缩放。
展示相较于以往方法，在 COCO 上实现的强劲速度-精度提升。

提出的方法

提出包含计划中的重参数化卷积（RepConvN）的可训练 freebies 包。
为辅助头和主头引入自粗到细的引导标签分配，配以深度监督。
使用主头引导的软标签，对辅助头和主头应用深度监督。
开发扩展的 ELAN（E-ELAN），通过分组卷积和特征图打乱在不改变梯度路径的情况下改善学习。
实现基于拼接的架构的复合模型缩放以平衡深度和宽度。
在 MS COCO 上从头训练 YOLOv7 模型，不进行外部预训练。

实验结果

研究问题

RQ1可训练的训练时技巧（freebies）是否能在不增加推理成本的前提下提升实时检测器的精度？
RQ2如何规划重参数化以在残差/拼接块之间保持梯度流？
RQ3在多头/多输出一起训练时，动态标签分配应如何处理？
RQ4哪种有效的复合缩放策略适用于基于拼接的检测器，以最大化精度和效率？
RQ5在 COCO 上从头训练是否足以在不同设备设置下实现最先进的性能？

主要发现

模型	参数量	计算量	尺寸	帧率	测试 AP / 验证 AP	验证 AP @50	验证 AP @75	验证 AP S	验证 AP M	验证 AP L
YOLOv7-E6E	151.7M	843.2G	1280	36	56.8% / 56.8%	74.4%	62.1%	39.3%	60.5%	69.0%
YOLOv7-D6	154.7M	806.8G	1280	44	56.6% / 56.3%	74.0%	61.8%	38.8%	60.1%	69.5%
YOLOv7-E6	97.2M	515.2G	1280	56	56.0% / 55.9%	73.5%	61.2%	38.0%	59.9%	68.4%
YOLOv7	36.9M	104.7G	640	161	51.4% / 51.2%	69.7%	55.9%	31.8%	55.5%	65.0%
YOLOv7-X	71.3M	189.9G	640	114	53.1% / 52.9%	71.2%	57.8%	33.8%	57.1%	67.4%

YOLOv7 在 5–160 FPS 范围内实现了实时检测器中最佳的速度-精度权衡。
YOLOv7-E6E 在 36 FPS (V100) 下实现 56.8% AP，在速度和精度上超过基于 transformer 和卷积的基线。
与强基线（如 YOLOR、YOLOv4、YOLOv4-tiny、YOLOR-D6）相比，YOLOv7 的各个变体在许多设置下减少参数量和 FLOPs，同时提高 AP。
提出的复合缩放策略（在块内深度、在转换处宽度并协调变化）使 AP 相比更窄的基线提升约 1.5 点。
基于 RepConvN 的重参数化和带有粗到细监督的引导标签分配，带来相较标准对照的可测量提升。
YOLOv7-tiny 及其变体在参数量显著更少、计算量更低的情况下，展示出相较于以往实时检测器的强劲精度提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。