[논문 리뷰] YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions
다음의 포괄적 벤치마크는 세 가지 데이터셋에서 v3부터 YOLO11까지의 Ultralytics YOLO 모델을 비교하여 정확도, 속도, GFLOPs 및 모델 크기를 상세히 제시하고, 모델 선택에 도움을 준다.
This study presents a comprehensive benchmark analysis of various YOLO (You Only Look Once) algorithms. It represents the first comprehensive experimental evaluation of YOLOv3 to the latest version, YOLOv12, on various object detection challenges. The challenges considered include varying object sizes, diverse aspect ratios, and small-sized objects of a single class, ensuring a comprehensive assessment across datasets with distinct challenges. To ensure a robust evaluation, we employ a comprehensive set of metrics, including Precision, Recall, Mean Average Precision (mAP), Processing Time, GFLOPs count, and Model Size. Our analysis highlights the distinctive strengths and limitations of each YOLO version. For example: YOLOv9 demonstrates substantial accuracy but struggles with detecting small objects and efficiency whereas YOLOv10 exhibits relatively lower accuracy due to architectural choices that affect its performance in overlapping object detection but excels in speed and efficiency. Additionally, the YOLO11 family consistently shows superior performance maintaining a remarkable balance of accuracy and efficiency. However, YOLOv12 delivered underwhelming results, with its complex architecture introducing computational overhead without significant performance gains. These results provide critical insights for both industry and academia, facilitating the selection of the most suitable YOLO algorithm for diverse applications and guiding future enhancements.
연구 동기 및 목표
- 다양한 데이터셋(Traffic Signs, Africa Wildlife, Ships)에서 YOLO 변형의 성능을 평가한다.
- mAP를 넘는 다중 지표를 평가한다(정밀도, 재현율, 전처리, 추론, 후처리 시간, GFLOPs, 모델 크기).
- 버전 간 정확도와 효율성 차이를 설명하기 위한 아키텍처 진화를 분석한다.
제안 방법
- 일관된 하이퍼파라미터를 사용하여 5개 YOLO 버전에서 23개 모델 벤치마크를 수행한다.
- 객체 크기와 종횡비가 다른 세 데이터셋에서 평가한다.
- 전처리 시간, 추론 시간, 후처리 시간, mAP50, mAP50-95, GFLOPs 및 모델 크기를 측정한다.
- 적용 가능한 경우 Ultralytics 구현을 원래의 YOLO 버전과 비교한다.
- 아키텍처 변화(C2PSA, C3k2, 앵커 프리(anchor-free) 방식, NMS-프리 트레이닝)의 성능 영향에 대해 논의한다.

실험 결과
연구 질문
- RQ1YOLO11과 그 선행 버전들이 다양한 데이터셋에서 정확도, 속도 및 효율성 측면에서 어떻게 비교되는가?
- RQ2YOLO 버전 간의 어떤 아키텍처 변화가 관찰된 성능 차이를 이끄는가?
- RQ3각 버전에서 정확도(mAP)와 효율성(GFLOPs, 모델 크기) 사이의 트레이드오프는 무엇인가?
주요 결과
| Version | Precision | Recall | mAP50 | mAP50-95 | Preprocess Time (s) | Inference Time (s) | Postprocess Time (s) | Total Time (s) | GFLOPs | Size (MB) |
|---|---|---|---|---|---|---|---|---|---|---|
| YOLOv3u | 0.75 | 0.849 | 0.874 | 0.781 | 0.7 | 8.5 | 0.4 | 9.6 | 207.86 | 282.4 |
| YOLOV3u tiny | 0.845 | 0.667 | 0.772 | 0.682 | 1.4 | 0.7 | 0.3 | 2.4 | 24.44 | 19 |
| YOLOv5un | 0.805 | 0.679 | 0.749 | 0.665 | 0.6 | 6.6 | 0.4 | 7.6 | 5.65 | 7.1 |
| YOLOv5us | 0.85 | 0.777 | 0.827 | 0.744 | 0.5 | 7.8 | 0.4 | 8.7 | 18.58 | 23.9 |
| YOLOv5um | 0.849 | 0.701 | 0.83 | 0.744 | 1.1 | 9.5 | 0.4 | 11 | 50.54 | 64.1 |
| YOLOv5ul | 0.831 | 0.836 | 0.886 | 0.799 | 0.6 | 9.7 | 0.4 | 10.7 | 106.85 | 134.9 |
| YOLOv5ux | 0.863 | 0.795 | 0.867 | 0.777 | 1.1 | 9.8 | 0.4 | 11.3 | 195.2 | 246.3 |
| YOLOv8n | 0.749 | 0.688 | 0.777 | 0.689 | 0.6 | 6.8 | 0.4 | 7.8 | 6.55 | 8.1 |
| YOLOv8s | 0.766 | 0.788 | 0.806 | 0.718 | 0.6 | 7.8 | 0.4 | 8.8 | 22.59 | 28.6 |
| YOLOv8m | 0.838 | 0.805 | 0.845 | 0.763 | 1.6 | 9.1 | 0.4 | 11.1 | 52.12 | 78.9 |
| YOLOv8l | 0.771 | 0.789 | 0.853 | 0.767 | 0.6 | 9.2 | 0.4 | 10.2 | 87.77 | 165 |
| YOLOv8x | 0.902 | 0.744 | 0.874 | 0.78 | 0.6 | 9.4 | 0.4 | 10.4 | 136.9 | 257.7 |
| YOLOv9t | 0.792 | 0.748 | 0.812 | 0.731 | 0.5 | 10 | 0.4 | 10.9 | 4.93 | 7.7 |
| YOLOv9s | 0.763 | 0.81 | 0.828 | 0.75 | 0.6 | 11.1 | 0.4 | 12.1 | 15.33 | 26.8 |
| YOLOv9m | 0.864 | 0.796 | 0.864 | 0.784 | 1 | 12.1 | 0.4 | 13.5 | 40.98 | 76.7 |
| YOLOv9c | 0.827 | 0.807 | 0.852 | 0.769 | 1.3 | 11.6 | 0.4 | 13.3 | 51.8 | 102.6 |
| YOLOv9e | 0.819 | 0.824 | 0.854 | 0.764 | 0.8 | 16.1 | 0.4 | 17.3 | 117.5 | 189.4 |
| YOLOv10n | 0.722 | 0.602 | 0.722 | 0.64 | 1 | 0.8 | 0.2 | 2 | 5.59 | 8.3 |
| YOLOv10s | 0.823 | 0.742 | 0.834 | 0.744 | 1.2 | 1.1 | 0.2 | 2.5 | 15.9 | 24.7 |
| YOLOv10m | 0.834 | 0.843 | 0.88 | 0.781 | 1.2 | 2.4 | 0.2 | 3.8 | 32.1 | 63.8 |
| YOLOv10b | 0.836 | 0.764 | 0.859 | 0.765 | 1 | 3.1 | 0.2 | 4.3 | 39.7 | 98.4 |
| YOLOv10l | 0.873 | 0.807 | 0.866 | 0.771 | 1.1 | 3.8 | 0.2 | 5.1 | 50 | 126.8 |
| YOLOv10x | 0.773 | 0.854 | 0.88 | 0.787 | 1 | 6.3 | 0.2 | 7.5 | 61.4 | 170.4 |
| YOLO11n | 0.768 | 0.695 | 0.757 | 0.668 | 1.2 | 0.6 | 0.4 | 2.2 | 5.35 | 6.4 |
| YOLO11s | 0.819 | 0.758 | 0.838 | 0.742 | 1.2 | 1 | 0.4 | 2.6 | 18.4 | 21.4 |
| YOLO11m | 0.898 | 0.826 | 0.893 | 0.795 | 1.2 | 2.4 | 0.4 | 4 | 38.8 | 67.9 |
| YOLO11l | 0.862 | 0.839 | 0.889 | 0.794 | 1.2 | 3 | 0.4 | 4.6 | 49 | 86.8 |
| YOLO11x | 0.819 | 0.816 | 0.885 | 0.784 | 0.9 | 6.1 | 0.4 | 7.4 | 109 | 194.8 |
- YOLO11 계열은 데이터셋 전반에서 정확도, 속도, 효율성, 모델 크기 면에서 우수한 성능을 보인다.
- YOLO11m은 Traffic Signs에서 0.795, African Wildlife에서 0.81, Ships에서 0.325의 mAP50-95 점수와 평균 추론 2.4 ms, 평균 크기 38.8 MB를 달성한다.
- YOLOv9는 높은 정확도를 보이지만 작은 객체 탐지 및 효율성 측면에서 어려움을 겪는 반면, YOLOv10은 빠름과 효율성에 중점을 두고 중첩 객체 탐지를 돕는 아키텍처 선택을 보인다.
- Ultralytics 지원 버전들인 YOLOv3u, YOLOv5un, YOLOv5us, YOLOv5ul, YOLOv8x, YOLOv9m/e, YOLOv10l/x, YOLO11 변형은 서로 다른 트레이드오프를 보이며, 원래 버전과의 직접적 비교는 최적화로 인해 불공평할 수 있다.
- 본 연구는 동일한 하이퍼파라미터를 사용하고 Ultralytics 지원 모델에 집중하여 공정한 벤치마크를 제공한다.
![Figure 2: YOLOv3 architecture showcasing the residual blocks and the upsampling layers to enhance object detection efficiency through different scales [ 9 ] .](https://ar5iv.labs.arxiv.org/html/2411.00201/assets/YOLOv3_architecture.png)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.