[论文解读] EfficientRep:An Efficient Repvgg-style ConvNets with Hardware-aware Neural Network Design
EfficientRep 联合设计硬件感知的 RepVGG 风格骨干网络和 CSP 增强块(Bep 和 BepC3),以在 YOLOv6 的不同模型大小上改善准确率-速度权衡。
We present a hardware-efficient architecture of convolutional neural network, which has a repvgg-like architecture. Flops or parameters are traditional metrics to evaluate the efficiency of networks which are not sensitive to hardware including computing ability and memory bandwidth. Thus, how to design a neural network to efficiently use the computing ability and memory bandwidth of hardware is a critical problem. This paper proposes a method how to design hardware-aware neural network. Based on this method, we designed EfficientRep series convolutional networks, which are high-computation hardware(e.g. GPU) friendly and applied in YOLOv6 object detection framework. YOLOv6 has published YOLOv6N/YOLOv6S/YOLOv6M/YOLOv6L models in v1 and v2 versions.
研究动机与目标
- 强调传统的 FLOPs/参数数量并不能捕捉硬件效率(内存带宽和 I/O)。
- 提出在 GPU 上平衡计算与内存访问的硬件感知神经网络设计原则。
- 开发 EfficientRep 家族,具备 RepVGG 风格的训练时多分支、推理时单分支,以及 CSP 基础增强。
- 在 YOLOv6 的不同模型变体(N/S/M/L)上展示改进的准确率-速度权衡。
- 在 NVIDIA GPU 上在 MS COCO 上进行速度指标验证硬件感知设计的收益。
提出的方法
- 采用 RepVGG 风格的卷积,训练时多分支、推理时单分支重构。
- 引入 Bep 单元,作为一个多分支的更高效硬件基础单元。
- 设计 CSPBep 骨干和 CSPRepPAN 颈部,以平衡准确率与推理速度。
- 为 YOLOv6-v2 创建 CSPBep/CSPRepPAN 变体,根据模型大小采用单分支/多分支混合策略。
- 应用深度与宽度乘数的尺度策略生成多种模型尺寸。
- 在 MS COCO 上进行 FPS 测量(bs=1, bs=32)并以 AP 作为主要指标进行评估。
实验结果
研究问题
- RQ1硬件感知设计如何在超越 FLOPs/参数的情况下提升 GPU 效率?
- RQ2在大模型上,是否能在保持更好单分支推理的同时保留 RepVGG 风格的多分支训练?
- RQ3Bep 与基于 CSP 的块是否在精度-速度权衡上优于原生的 RepVGG 风格设计?
- RQ4对于 YOLOv6,不同模型大小下的最佳混合策略(单分支 vs 多分支)是什么?
- RQ5相较于最先进的检测器,提出的 EfficientRep 变体在标准目标检测基准上的表现如何?
主要发现
| Model | Input Size | AP 值 | FPS bs=1 | FPS bs=32 | Latency bs=1 |
|---|---|---|---|---|---|
| YOLOv5-N [ 16 ] | 640 | 28.0% | 602 | 735 | 1.7 ms |
| YOLOv5-S [ 16 ] | 640 | 37.4% | 376 | 444 | 2.7 ms |
| YOLOv5-M [ 16 ] | 640 | 45.4% | 182 | 209 | 5.5 ms |
| YOLOv5-L [ 16 ] | 640 | 49.0% | 113 | 126 | 8.8 ms |
| YOLOX-Tiny [ 18 ] | 416 | 32.8% | 717 | 1143 | 1.4 ms |
| YOLOX-S [ 18 ] | 640 | 40.5% | 333 | 396 | 3.0 ms |
| YOLOX-M [ 18 ] | 640 | 46.9% | 155 | 179 | 6.4 ms |
| YOLOX-L [ 18 ] | 640 | 49.7% | 94 | 103 | 10.6 ms |
| PPYOLOE-S [ 17 ] | 640 | 43.1% | 327 | 419 | 3.1 ms |
| PPYOLOE-M [ 17 ] | 640 | 49.0% | 152 | 189 | 6.6 ms |
| PPYOLOE-L [ 17 ] | 640 | 51.4% | 101 | 127 | 10.1 ms |
| YOvLv7-Tiny [ 19 ] | 416 | 33.3% | 787 | 1196 | 1.3 ms |
| YOLOv7-TIny [ 19 ] | 640 | 37.4% | 424 | 519 | 2.4 ms |
| YOLOv7 [ 19 ] | 640 | 51.2% | 110 | 122 | 9.0 ms |
| YOLOv6-N | 640 | 35.9% | 802 | 1234 | 1.2 ms |
| YOLOv6-S | 640 | 43.5% | 358 | 495 | 2.8 ms |
| YOLOv6-M | 640 | 49.5% | 179 | 233 | 5.6 ms |
| YOLOv6-L | 640 | 51.7% | 113 | 149 | 8.8 ms |
- EfficientRep 骨干和 Rep-PAN 颈部对 GPU 友好,在 YOLOv6-v1 中改善了准确率-速度权衡。
- 纯 RepVGG 风格模型(如 YOLOv6-M)在速度和准确性方面不如 BepC3/CSP 结构。
- 带 CSP 风格整合的 Bep 单元(BepC3)为较大模型提供平衡的准确性与推理速度。
- CSPBep 和 CSPRepPAN 使混合设计成为可能,在不同模型大小上实现更好性能。
- 在 COCO 上的经验结果显示,当使用 EfficientRep 变体时,多个检测器的 AP 竞争力并且 FPS 更高。
- 论文报告了在 NVIDIA GPU 上的详细表格,比较大量模型的速度与精度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。