Skip to main content
QUICK REVIEW

[论文解读] EfficientRep:An Efficient Repvgg-style ConvNets with Hardware-aware Neural Network Design

Kaiheng Weng, Xiangxiang Chu|arXiv (Cornell University)|Feb 1, 2023
Advanced Neural Network Applications被引用 23
一句话总结

EfficientRep 联合设计硬件感知的 RepVGG 风格骨干网络和 CSP 增强块(Bep 和 BepC3),以在 YOLOv6 的不同模型大小上改善准确率-速度权衡。

ABSTRACT

We present a hardware-efficient architecture of convolutional neural network, which has a repvgg-like architecture. Flops or parameters are traditional metrics to evaluate the efficiency of networks which are not sensitive to hardware including computing ability and memory bandwidth. Thus, how to design a neural network to efficiently use the computing ability and memory bandwidth of hardware is a critical problem. This paper proposes a method how to design hardware-aware neural network. Based on this method, we designed EfficientRep series convolutional networks, which are high-computation hardware(e.g. GPU) friendly and applied in YOLOv6 object detection framework. YOLOv6 has published YOLOv6N/YOLOv6S/YOLOv6M/YOLOv6L models in v1 and v2 versions.

研究动机与目标

  • 强调传统的 FLOPs/参数数量并不能捕捉硬件效率(内存带宽和 I/O)。
  • 提出在 GPU 上平衡计算与内存访问的硬件感知神经网络设计原则。
  • 开发 EfficientRep 家族,具备 RepVGG 风格的训练时多分支、推理时单分支,以及 CSP 基础增强。
  • 在 YOLOv6 的不同模型变体(N/S/M/L)上展示改进的准确率-速度权衡。
  • 在 NVIDIA GPU 上在 MS COCO 上进行速度指标验证硬件感知设计的收益。

提出的方法

  • 采用 RepVGG 风格的卷积,训练时多分支、推理时单分支重构。
  • 引入 Bep 单元,作为一个多分支的更高效硬件基础单元。
  • 设计 CSPBep 骨干和 CSPRepPAN 颈部,以平衡准确率与推理速度。
  • 为 YOLOv6-v2 创建 CSPBep/CSPRepPAN 变体,根据模型大小采用单分支/多分支混合策略。
  • 应用深度与宽度乘数的尺度策略生成多种模型尺寸。
  • 在 MS COCO 上进行 FPS 测量(bs=1, bs=32)并以 AP 作为主要指标进行评估。

实验结果

研究问题

  • RQ1硬件感知设计如何在超越 FLOPs/参数的情况下提升 GPU 效率?
  • RQ2在大模型上,是否能在保持更好单分支推理的同时保留 RepVGG 风格的多分支训练?
  • RQ3Bep 与基于 CSP 的块是否在精度-速度权衡上优于原生的 RepVGG 风格设计?
  • RQ4对于 YOLOv6,不同模型大小下的最佳混合策略(单分支 vs 多分支)是什么?
  • RQ5相较于最先进的检测器,提出的 EfficientRep 变体在标准目标检测基准上的表现如何?

主要发现

ModelInput SizeAP 值FPS bs=1FPS bs=32Latency bs=1
YOLOv5-N [ 16 ]64028.0%6027351.7 ms
YOLOv5-S [ 16 ]64037.4%3764442.7 ms
YOLOv5-M [ 16 ]64045.4%1822095.5 ms
YOLOv5-L [ 16 ]64049.0%1131268.8 ms
YOLOX-Tiny [ 18 ]41632.8%71711431.4 ms
YOLOX-S [ 18 ]64040.5%3333963.0 ms
YOLOX-M [ 18 ]64046.9%1551796.4 ms
YOLOX-L [ 18 ]64049.7%9410310.6 ms
PPYOLOE-S [ 17 ]64043.1%3274193.1 ms
PPYOLOE-M [ 17 ]64049.0%1521896.6 ms
PPYOLOE-L [ 17 ]64051.4%10112710.1 ms
YOvLv7-Tiny [ 19 ]41633.3%78711961.3 ms
YOLOv7-TIny [ 19 ]64037.4%4245192.4 ms
YOLOv7 [ 19 ]64051.2%1101229.0 ms
YOLOv6-N64035.9%80212341.2 ms
YOLOv6-S64043.5%3584952.8 ms
YOLOv6-M64049.5%1792335.6 ms
YOLOv6-L64051.7%1131498.8 ms
  • EfficientRep 骨干和 Rep-PAN 颈部对 GPU 友好,在 YOLOv6-v1 中改善了准确率-速度权衡。
  • 纯 RepVGG 风格模型(如 YOLOv6-M)在速度和准确性方面不如 BepC3/CSP 结构。
  • 带 CSP 风格整合的 Bep 单元(BepC3)为较大模型提供平衡的准确性与推理速度。
  • CSPBep 和 CSPRepPAN 使混合设计成为可能,在不同模型大小上实现更好性能。
  • 在 COCO 上的经验结果显示,当使用 EfficientRep 变体时,多个检测器的 AP 竞争力并且 FPS 更高。
  • 论文报告了在 NVIDIA GPU 上的详细表格,比较大量模型的速度与精度。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。