[论文解读] YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
YOLOv7 引入可训练的 freebies 来提高实时目标检测精度且不增加推理成本,达到最优的速度-精度权衡,并在 MS COCO 上从头训练。
YOLOv7 surpasses all known object detectors in both speed and accuracy in the range from 5 FPS to 160 FPS and has the highest accuracy 56.8% AP among all known real-time object detectors with 30 FPS or higher on GPU V100. YOLOv7-E6 object detector (56 FPS V100, 55.9% AP) outperforms both transformer-based detector SWIN-L Cascade-Mask R-CNN (9.2 FPS A100, 53.9% AP) by 509% in speed and 2% in accuracy, and convolutional-based detector ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) by 551% in speed and 0.7% AP in accuracy, as well as YOLOv7 outperforms: YOLOR, YOLOX, Scaled-YOLOv4, YOLOv5, DETR, Deformable DETR, DINO-5scale-R50, ViT-Adapter-B and many other object detectors in speed and accuracy. Moreover, we train YOLOv7 only on MS COCO dataset from scratch without using any other datasets or pre-trained weights. Source code is released in https://github.com/WongKinYiu/yolov7.
研究动机与目标
- 促使实时目标检测器在不提高推理成本的情况下提升精度。
- 提出可训练的训练时提升方法(freebies)以提升性能。
- 解决在多头训练中出现的重参数化和动态标签分配问题。
- 为基于拼接的架构引入扩展缩放和复合缩放。
- 展示相较于以往方法,在 COCO 上实现的强劲速度-精度提升。
提出的方法
- 提出包含计划中的重参数化卷积(RepConvN)的可训练 freebies 包。
- 为辅助头和主头引入自粗到细的引导标签分配,配以深度监督。
- 使用主头引导的软标签,对辅助头和主头应用深度监督。
- 开发扩展的 ELAN(E-ELAN),通过分组卷积和特征图打乱在不改变梯度路径的情况下改善学习。
- 实现基于拼接的架构的复合模型缩放以平衡深度和宽度。
- 在 MS COCO 上从头训练 YOLOv7 模型,不进行外部预训练。
实验结果
研究问题
- RQ1可训练的训练时技巧(freebies)是否能在不增加推理成本的前提下提升实时检测器的精度?
- RQ2如何规划重参数化以在残差/拼接块之间保持梯度流?
- RQ3在多头/多输出一起训练时,动态标签分配应如何处理?
- RQ4哪种有效的复合缩放策略适用于基于拼接的检测器,以最大化精度和效率?
- RQ5在 COCO 上从头训练是否足以在不同设备设置下实现最先进的性能?
主要发现
| 模型 | 参数量 | 计算量 | 尺寸 | 帧率 | 测试 AP / 验证 AP | 验证 AP @50 | 验证 AP @75 | 验证 AP S | 验证 AP M | 验证 AP L |
|---|---|---|---|---|---|---|---|---|---|---|
| YOLOv7-E6E | 151.7M | 843.2G | 1280 | 36 | 56.8% / 56.8% | 74.4% | 62.1% | 39.3% | 60.5% | 69.0% |
| YOLOv7-D6 | 154.7M | 806.8G | 1280 | 44 | 56.6% / 56.3% | 74.0% | 61.8% | 38.8% | 60.1% | 69.5% |
| YOLOv7-E6 | 97.2M | 515.2G | 1280 | 56 | 56.0% / 55.9% | 73.5% | 61.2% | 38.0% | 59.9% | 68.4% |
| YOLOv7 | 36.9M | 104.7G | 640 | 161 | 51.4% / 51.2% | 69.7% | 55.9% | 31.8% | 55.5% | 65.0% |
| YOLOv7-X | 71.3M | 189.9G | 640 | 114 | 53.1% / 52.9% | 71.2% | 57.8% | 33.8% | 57.1% | 67.4% |
- YOLOv7 在 5–160 FPS 范围内实现了实时检测器中最佳的速度-精度权衡。
- YOLOv7-E6E 在 36 FPS (V100) 下实现 56.8% AP,在速度和精度上超过基于 transformer 和卷积的基线。
- 与强基线(如 YOLOR、YOLOv4、YOLOv4-tiny、YOLOR-D6)相比,YOLOv7 的各个变体在许多设置下减少参数量和 FLOPs,同时提高 AP。
- 提出的复合缩放策略(在块内深度、在转换处宽度并协调变化)使 AP 相比更窄的基线提升约 1.5 点。
- 基于 RepConvN 的重参数化和带有粗到细监督的引导标签分配,带来相较标准对照的可测量提升。
- YOLOv7-tiny 及其变体在参数量显著更少、计算量更低的情况下,展示出相较于以往实时检测器的强劲精度提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。