QUICK REVIEW

[论文解读] EfficientRep:An Efficient Repvgg-style ConvNets with Hardware-aware Neural Network Design

Kaiheng Weng, Xiangxiang Chu|arXiv (Cornell University)|Feb 1, 2023

Advanced Neural Network Applications被引用 23

一句话总结

EfficientRep 联合设计硬件感知的 RepVGG 风格骨干网络和 CSP 增强块（Bep 和 BepC3），以在 YOLOv6 的不同模型大小上改善准确率-速度权衡。

ABSTRACT

We present a hardware-efficient architecture of convolutional neural network, which has a repvgg-like architecture. Flops or parameters are traditional metrics to evaluate the efficiency of networks which are not sensitive to hardware including computing ability and memory bandwidth. Thus, how to design a neural network to efficiently use the computing ability and memory bandwidth of hardware is a critical problem. This paper proposes a method how to design hardware-aware neural network. Based on this method, we designed EfficientRep series convolutional networks, which are high-computation hardware(e.g. GPU) friendly and applied in YOLOv6 object detection framework. YOLOv6 has published YOLOv6N/YOLOv6S/YOLOv6M/YOLOv6L models in v1 and v2 versions.

研究动机与目标

强调传统的 FLOPs/参数数量并不能捕捉硬件效率（内存带宽和 I/O）。
提出在 GPU 上平衡计算与内存访问的硬件感知神经网络设计原则。
开发 EfficientRep 家族，具备 RepVGG 风格的训练时多分支、推理时单分支，以及 CSP 基础增强。
在 YOLOv6 的不同模型变体（N/S/M/L）上展示改进的准确率-速度权衡。
在 NVIDIA GPU 上在 MS COCO 上进行速度指标验证硬件感知设计的收益。

提出的方法

采用 RepVGG 风格的卷积，训练时多分支、推理时单分支重构。
引入 Bep 单元，作为一个多分支的更高效硬件基础单元。
设计 CSPBep 骨干和 CSPRepPAN 颈部，以平衡准确率与推理速度。
为 YOLOv6-v2 创建 CSPBep/CSPRepPAN 变体，根据模型大小采用单分支/多分支混合策略。
应用深度与宽度乘数的尺度策略生成多种模型尺寸。
在 MS COCO 上进行 FPS 测量（bs=1, bs=32）并以 AP 作为主要指标进行评估。

实验结果

研究问题

RQ1硬件感知设计如何在超越 FLOPs/参数的情况下提升 GPU 效率？
RQ2在大模型上，是否能在保持更好单分支推理的同时保留 RepVGG 风格的多分支训练？
RQ3Bep 与基于 CSP 的块是否在精度-速度权衡上优于原生的 RepVGG 风格设计？
RQ4对于 YOLOv6，不同模型大小下的最佳混合策略（单分支 vs 多分支）是什么？
RQ5相较于最先进的检测器，提出的 EfficientRep 变体在标准目标检测基准上的表现如何？

主要发现

Model	Input Size	AP 值	FPS bs=1	FPS bs=32	Latency bs=1
YOLOv5-N [ 16 ]	640	28.0%	602	735	1.7 ms
YOLOv5-S [ 16 ]	640	37.4%	376	444	2.7 ms
YOLOv5-M [ 16 ]	640	45.4%	182	209	5.5 ms
YOLOv5-L [ 16 ]	640	49.0%	113	126	8.8 ms
YOLOX-Tiny [ 18 ]	416	32.8%	717	1143	1.4 ms
YOLOX-S [ 18 ]	640	40.5%	333	396	3.0 ms
YOLOX-M [ 18 ]	640	46.9%	155	179	6.4 ms
YOLOX-L [ 18 ]	640	49.7%	94	103	10.6 ms
PPYOLOE-S [ 17 ]	640	43.1%	327	419	3.1 ms
PPYOLOE-M [ 17 ]	640	49.0%	152	189	6.6 ms
PPYOLOE-L [ 17 ]	640	51.4%	101	127	10.1 ms
YOvLv7-Tiny [ 19 ]	416	33.3%	787	1196	1.3 ms
YOLOv7-TIny [ 19 ]	640	37.4%	424	519	2.4 ms
YOLOv7 [ 19 ]	640	51.2%	110	122	9.0 ms
YOLOv6-N	640	35.9%	802	1234	1.2 ms
YOLOv6-S	640	43.5%	358	495	2.8 ms
YOLOv6-M	640	49.5%	179	233	5.6 ms
YOLOv6-L	640	51.7%	113	149	8.8 ms

EfficientRep 骨干和 Rep-PAN 颈部对 GPU 友好，在 YOLOv6-v1 中改善了准确率-速度权衡。
纯 RepVGG 风格模型（如 YOLOv6-M）在速度和准确性方面不如 BepC3/CSP 结构。
带 CSP 风格整合的 Bep 单元（BepC3）为较大模型提供平衡的准确性与推理速度。
CSPBep 和 CSPRepPAN 使混合设计成为可能，在不同模型大小上实现更好性能。
在 COCO 上的经验结果显示，当使用 EfficientRep 变体时，多个检测器的 AP 竞争力并且 FPS 更高。
论文报告了在 NVIDIA GPU 上的详细表格，比较大量模型的速度与精度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。