Skip to main content
QUICK REVIEW

[논문 리뷰] Model Compression Methods for YOLOv5: A Review

Mohammad Jani, Jamil Fayyad|arXiv (Cornell University)|2023. 07. 21.
Advanced Neural Network Applications인용 수 11
한 줄 요약

이 논문은 YOLOv5에 적용된 가지치기 및 양자화 방법을 조사하고, 실질적인 구현 결과를 분석하며 엣지 배치를 위한 격차와 향후 방향을 식별한다.

ABSTRACT

Over the past few years, extensive research has been devoted to enhancing YOLO object detectors. Since its introduction, eight major versions of YOLO have been introduced with the purpose of improving its accuracy and efficiency. While the evident merits of YOLO have yielded to its extensive use in many areas, deploying it on resource-limited devices poses challenges. To address this issue, various neural network compression methods have been developed, which fall under three main categories, namely network pruning, quantization, and knowledge distillation. The fruitful outcomes of utilizing model compression methods, such as lowering memory usage and inference time, make them favorable, if not necessary, for deploying large neural networks on hardware-constrained edge devices. In this review paper, our focus is on pruning and quantization due to their comparative modularity. We categorize them and analyze the practical results of applying those methods to YOLOv5. By doing so, we identify gaps in adapting pruning and quantization for compressing YOLOv5, and provide future directions in this area for further exploration. Among several versions of YOLO, we specifically choose YOLOv5 for its excellent trade-off between recency and popularity in literature. This is the first specific review paper that surveys pruning and quantization methods from an implementation point of view on YOLOv5. Our study is also extendable to newer versions of YOLO as implementing them on resource-limited devices poses the same challenges that persist even today. This paper targets those interested in the practical deployment of model compression methods on YOLOv5, and in exploring different compression techniques that can be used for subsequent versions of YOLO.

연구 동기 및 목표

  • 자원 제약이 있는 엣지 디바이스에서 모델 크기 및 추론 시간을 줄여 YOLOv5의 배치를 촉진하는 것을 목표로 한다.
  • 실제 환경에서 YOLOv5에 사용된 가지치기와 양자화 기술을 분류하고 분석한다.
  • 메모리, FLOPs, 속도(FPS), 정확도 지표를 통해 실용적 결과를 비교하고 격차를 식별한다.
  • 남은 도전과제를 강조하고 가지치기 및 양자화를 최신 YOLO 버전에 적용하기 위한 방향을 제시한다.

제안 방법

  • YOLOv5의 실용적 구현에 중점을 둔 가지치기 및 양자화 방법을 검토한다.
  • 가지치기에서 사용되는 중요도 기준을 논의하며, l1/l2 노름, 특성 맵 활성화, BN 스케일링 계수, 1차 미분, 상호 정보 등을 포함한다.
  • 가지치기의 세분화를 비구조적, 채널 기반, 필터 기반, 커널 기반 접근으로 구분하고 구조 및 하드웨어에 대한 시사점을 설명한다.
  • 균일 vs 비균일, 정적 vs 동적 범위, QAT vs PTQ, 배치 스킴(가짜 양자화 vs 정수 전용 양자화) 등 양자화 개념을 설명한다.
  • 최근 연구에서 이러한 기법들을 YOLOv5에 적용한 실험 결과를 요약하고 가지치기 세분화 및 양자화 방식으로 분류한다.
Figure 1 : YOLO release timeline. YOLOv5 and YOLOv6 have ten and six released variants, respectively.
Figure 1 : YOLO release timeline. YOLOv5 and YOLOv6 have ten and six released variants, respectively.

실험 결과

연구 질문

  • RQ1정확도를 희생하지 않으면서 YOLOv5의 크기와 대기 시간을 줄이는 데 가장 효과적인 가지치기 전략은 무엇인가?
  • RQ2BN 스케일링 계수 기반 가지치기 및 기타 중요도 기준이 YOLOv5에서 실제로 어떻게 비교되는가?
  • RQ3어떤 양자화 스킴(QAT vs PTQ, 정적 vs 동적 범위)이 엣지 하드웨어 배치를 가능하게 하면서 YOLOv5의 정확도를 가장 잘 보존하는가?
  • RQ4YOLOv5 및 차세대 YOLO 버전에 가지치기와 양자화를 적용하기 위해 확인된 격차와 향후 방향은 무엇인가?

주요 결과

  • 채널 기반 가지치기와 BN 스케일링 계수(BNSF)는 YOLOv5 가지치기 연구에서 지배적인 중요도 기준이며(약 60%).
  • 많은 가지치기 연구는 정밀 튜닝으로 정확도를 회복하기 위한 반복 가지치기를 사용하며, 매개변수 감소, 크기 감소, FLOPs 감소, 그리고 때로는 FPS 감소를 보고한다.
  • 양자화 연구는 YOLOv5에서 최소한의 정확도 손실로 3비트 정밀도까지 도달하는 QAT를 보여주며, PTQ는 일반적으로 8비트 이하로 내려갈 때 큰 정확도 손실 없이 달성하지 못한다.
  • 텐서RT, 파이토치 양자화, ONNX 등 광범위한 배치 전략은 주요 합성에서 제외되며 새로운 양자화 방식에 중점을 둔다.
  • 여러 논문은 건축적 변화(예: MobileNetV3 백본, 주의 모듈)를 가지치기와 결합하여 NVIDIA Jetson Xavier NX 및 Raspberry Pi와 같은 기기에 엣지 배치를 가능하게 한다.
Figure 2 : YOLOv5l architecture. SPPF represents a computation-efficient version of the Spatial Pyramid Pooling, which was originally implemented in YOLOv3; C3 uses the new CSP-combined module whose details are illustrated in Figure 3 .
Figure 2 : YOLOv5l architecture. SPPF represents a computation-efficient version of the Spatial Pyramid Pooling, which was originally implemented in YOLOv3; C3 uses the new CSP-combined module whose details are illustrated in Figure 3 .

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.