[논문 리뷰] What is YOLOv8: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector
본 논문은 YOLOv8의 아키텍처, 훈련 기법 및 YOLOv5에 비한 성능 향상을 분석하고, 앵커 프리(anchor-free) 설계, CSPNet 백본, FPN+PAN 넥, 그리고 COCO와 Roboflow 100과 같은 벤치마크에서의 개발자 친화적 도구를 강조합니다.
This study presents a detailed analysis of the YOLOv8 object detection model, focusing on its architecture, training techniques, and performance improvements over previous iterations like YOLOv5. Key innovations, including the CSPNet backbone for enhanced feature extraction, the FPN+PAN neck for superior multi-scale object detection, and the transition to an anchor-free approach, are thoroughly examined. The paper reviews YOLOv8's performance across benchmarks like Microsoft COCO and Roboflow 100, highlighting its high accuracy and real-time capabilities across diverse hardware platforms. Additionally, the study explores YOLOv8's developer-friendly enhancements, such as its unified Python package and CLI, which streamline model training and deployment. Overall, this research positions YOLOv8 as a state-of-the-art solution in the evolving object detection field.
연구 동기 및 목표
- YOLOv8의 성능을 YOLOv5를 포함한 최신 탐지기와 비교 평가한다.
- 정확도와 다중 스케일 탐지에 미치는 설계 혁신(CSPNet 백본, FPN+PAN 넥)의 영향을 평가한다.
- 앵커 프리 경계 상자 예측 및 학습 개선의 이점을 검토한다.
- 훈련 및 배포를 위한 개발자 지향 기능(통합 Python 패키지 및 CLI)을 분석한다.
- COCO 및 Roboflow 100 데이터셋에서 YOLOv8를 벤치마크하고 모델 크기별로 비교한다.
제안 방법
- YOLOv8의 아키텍처 구성요소(백본, 넥, 헤드)와 앵커 프리 접근 방식으로의 전환을 설명한다.
- 모자이크(mosaic)/믹스업(mixup) 증강, focal loss, 혼합 정밀도 학습, PyTorch 최적화를 포함한 훈련 방법론을 요약한다.
- 데이터 증강 기법 및 손실 구성요소(focal loss, IoU loss, objectness loss)를 상세히 설명한다.
- 모델 패밀리 변형과 파라미터 수, 속도, 정확도 지표를 제시한다.
- 벤치마크에서 보고된 지표를 사용해 YOLOv8와 YOLOv5를 비교한다.
![Figure 1: Process of Object Detection [ 13 ]](https://ar5iv.labs.arxiv.org/html/2408.15857/assets/1.png)
실험 결과
연구 질문
- RQ1CSPNet 백본과 향상된 FPN+PAN 넥이 YOLOv8에서 특징 추출과 다중 스케일 탐지에 어떤 영향을 미치는가?
- RQ2표준 벤치마크에서 YOLOv8이 YOLOv5보다 얻는 성능 향상(정확도 및 속도)은 무엇인가?
- RQ3앵커 프리 경계상자와 고급 데이터 증강이 탐지 견고성에 어떻게 기여하는가?
- RQ4개발자 중심 도구(파이썬 패키지, CLI)가 훈련 및 배포 효율성에 미치는 실질적 영향은 무엇인가?
주요 결과
| 메트릭 | YOLOv5 | YOLOv8 |
|---|---|---|
| mAP@0.5 | 50.5% | 55.2% |
| Inference Time | 30 ms/image | 25 ms/image |
| Training Time | 12 hours | 10 hours |
| Model Size | 14 MB | 12 MB |
- YOLOv8은 YOLOv5보다 더 높은 mAP@0.5를 보인다(55.2% 대 50.5%).
- YOLOv8은 YOLOv5(30 ms/image)보다 빠른 추론 시간(25 ms/image)을 달성한다.
- YOLOv8은 학습 시간을 단축한다(10시간 대 12시간).
- YOLOv8 모델 크기가 더 작다(12 MB 대 14 MB).
- 논문은 정확도와 파라미터 수가 증가하는 다섯 가지 YOLOv8 변형(n, s, m, l, x)을 문서화하며, 서로 다른 하드웨어 제약에 적합하다.
![Figure 2: Model Structure of Yolov8 [ 14 ]](https://ar5iv.labs.arxiv.org/html/2408.15857/assets/2.png)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.