QUICK REVIEW

[논문 리뷰] EfficientRep:An Efficient Repvgg-style ConvNets with Hardware-aware Neural Network Design

Kaiheng Weng, Xiangxiang Chu|arXiv (Cornell University)|2023. 02. 01.

Advanced Neural Network Applications인용 수 23

한 줄 요약

EfficientRep는 하드웨어 인식형 RepVGG-스타일 백본과 CSP 보강 블록(Bep 및 BepC3)을 함께 설계하여 모델 크기에 따른 YOLOv6의 정확도-속도 트레이드오프를 개선합니다.

ABSTRACT

We present a hardware-efficient architecture of convolutional neural network, which has a repvgg-like architecture. Flops or parameters are traditional metrics to evaluate the efficiency of networks which are not sensitive to hardware including computing ability and memory bandwidth. Thus, how to design a neural network to efficiently use the computing ability and memory bandwidth of hardware is a critical problem. This paper proposes a method how to design hardware-aware neural network. Based on this method, we designed EfficientRep series convolutional networks, which are high-computation hardware(e.g. GPU) friendly and applied in YOLOv6 object detection framework. YOLOv6 has published YOLOv6N/YOLOv6S/YOLOv6M/YOLOv6L models in v1 and v2 versions.

연구 동기 및 목표

전통적인 FLOPs/매개변수 수가 하드웨어 효율성(메모리 대역폭 및 I/O)을 포착하지 못한다는 점을 동기 부여.
GPU에서 계산과 메모리 액세스의 균형을 맞추는 하드웨어 인식 신경망 설계 원칙 제안.
RepVGG-스타 훈련 시 멀티 브랜치, 추론 시 싱글-브랜치로의 재구성, CSP 기반 개선으로 EfficientRep 패밀리 개발.
모델 크기(N/S/M/L) 전반에서 YOLOv6의 정확도-속도 트레이드오프 개선 시연.
NVIDIA GPU의 속도 메트릭으로 MS COCO에서 평가하여 하드웨어 인식 설계 이점 검증.

제안 방법

학습 시 다중 브랜치를 활용하고 추론 시 단일 브랜치로 재구성하는 RepVGG-스타 컨볼utions 채택.
Bep 유닛을 다중 브랜치이면서 좀 더 하드웨어 효율적인 기본 유닛으로 도입.
CSPBep 백본과 CSPRepPAN 넥을 설계하여 정확도와 추론 속도를 균형.
YOLOv6-v2에 대해 하이브리드 싱글/멀티-브랜치 전략으로 CSPBep/CSPRepPAN 변형 설계.
깊이/너비 배수로 스케일 전략을 적용하여 다중 모델 크기 생성.
MS COCO에서 FPS 측정(bs=1, bs=32) 및 AP를 주요 지표로 평가.

실험 결과

연구 질문

RQ1하드웨어 인식 설계가 FLOPs/매개변수를 넘어 GPU 효율성을 어떻게 개선할 수 있는가?
RQ2대형 모델에서 RepVGG-스타의 멀티브랜치 학습을 더 나은 싱글-브랜치 추론으로 유지할 수 있는가?
RQ3Bep 및 CSP 기반 블록이 일반 RepVGG 스타일 설계보다 더 나은 정확도-속도 트레이드오프를 제공하는가?
RQ4YOLOv6에서 모델 크기에 따른 최적의 하이브리드 전략(싱글-브랜치 대 멀티-브랜치)은 무엇인가?
RQ5제안된 EfficientRep 변형이 표준 물체 감지 벤치마크에서 최첨단 탐지기 대비 어떻게 수행하는가?

주요 결과

모델	입력 크기	AP 값	FPS bs=1	FPS bs=32	지연 시간 bs=1
YOLOv5-N [ 16 ]	640	28.0%	602	735	1.7 ms
YOLOv5-S [ 16 ]	640	37.4%	376	444	2.7 ms
YOLOv5-M [ 16 ]	640	45.4%	182	209	5.5 ms
YOLOv5-L [ 16 ]	640	49.0%	113	126	8.8 ms
YOLOX-Tiny [ 18 ]	416	32.8%	717	1143	1.4 ms
YOLOX-S [ 18 ]	640	40.5%	333	396	3.0 ms
YOLOX-M [ 18 ]	640	46.9%	155	179	6.4 ms
YOLOX-L [ 18 ]	640	49.7%	94	103	10.6 ms
PPYOLOE-S [ 17 ]	640	43.1%	327	419	3.1 ms
PPYOLOE-M [ 17 ]	640	49.0%	152	189	6.6 ms
PPYOLOE-L [ 17 ]	640	51.4%	101	127	10.1 ms
YOvLv7-Tiny [ 19 ]	416	33.3%	787	1196	1.3 ms
YOLOv7-TIny [ 19 ]	640	37.4%	424	519	2.4 ms
YOLOv7 [ 19 ]	640	51.2%	110	122	9.0 ms
YOLOv6-N	640	35.9%	802	1234	1.2 ms
YOLOv6-S	640	43.5%	358	495	2.8 ms
YOLOv6-M	640	49.5%	179	233	5.6 ms
YOLOv6-L	640	51.7%	113	149	8.8 ms

EfficientRep 백본과 Rep-PAN 넥은 GPU 친화적이며 YOLOv6-v1에서 정확도-속도 트레이드오프를 향상시킨다.
순수한 RepVGG 스타일 모델들(예: YOLOv6-M)은 속도와 정확도 면에서 BepC3/CSP 구조에 비해 성능이 떨어진다.
CSP 스타일 통합(BepC3)을 갖춘 Bep 유닛은 대형 모델에서 균형 잡힌 정확도와 추론 속도를 제공한다.
CSPBep 및 CSPRepPAN은 더 나은 성능을 가능하게 하는 효과적인 하이브리드 설계를 가능하게 한다.
COCO에서 실험적 결과는 EfficientRep 변형을 사용할 때 여러 탐지기에서 경쟁력 있는 AP와 더 높은 FPS를 보여준다.
이 논문은 NVIDIA GPU에서 속도와 정확도를 비교하는 자세한 표를 보고한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.