QUICK REVIEW

[論文レビュー] YOLOv5, YOLOv8 and YOLOv10: The Go-To Detectors for Real-time Vision

Muhammad Azhar Hussain|arXiv (Cornell University)|Jul 3, 2024

CCD and CMOS Imaging Sensors被引用数 38

ひとこと要約

YOLOv5、YOLOv8、YOLOv10を総括的に比較し、アーキテクチャの進化、エッジ展開適性、性能指標を詳述する。

ABSTRACT

This paper presents a comprehensive review of the evolution of the YOLO (You Only Look Once) object detection algorithm, focusing on YOLOv5, YOLOv8, and YOLOv10. We analyze the architectural advancements, performance improvements, and suitability for edge deployment across these versions. YOLOv5 introduced significant innovations such as the CSPDarknet backbone and Mosaic Augmentation, balancing speed and accuracy. YOLOv8 built upon this foundation with enhanced feature extraction and anchor-free detection, improving versatility and performance. YOLOv10 represents a leap forward with NMS-free training, spatial-channel decoupled downsampling, and large-kernel convolutions, achieving state-of-the-art performance with reduced computational overhead. Our findings highlight the progressive enhancements in accuracy, efficiency, and real-time performance, particularly emphasizing their applicability in resource-constrained environments. This review provides insights into the trade-offs between model complexity and detection accuracy, offering guidance for selecting the most appropriate YOLO version for specific edge computing applications.

研究の動機と目的

YOLOv5からYOLOv10へのアーキテクチャの進化と、それがエッジ展開に与える影響を評価する。
標準ベンチマーク上での各バージョンの性能、待機時間、モデル効率を評価する。
制約のあるハードウェアにおけるモデルサイズ、精度、計算要件のトレードオフを特定する。
特定のエッジビジョンタスクに対して適切なYOLOバージョンを選択するためのガイダンスを提供する。

提案手法

YOLOv5、YOLOv8、YOLOv10におけるアーキテクチャの変更を調査する（バックボーン、ネック、ヘッド、NMS、データ拡張）。
各モデルバリアントのCOCO評価と待機時間の知見から性能指標を要約する。
アンカー型ヘッドとアンカーなしヘッドの比較、NMSなしトレーニングの含意を比較する。
デプロイメント形式と最適化技術（エクスポート形式、混合精度など）を強調する。
リアルタイムビジョンタスクのためのエッジ展開の考慮事項とトレードオフを統合する。

実験結果

リサーチクエスチョン

RQ1YOLOv5、YOLOv8、YOLOv10のアーキテクチャは、エッジ展開の性能を改善するためにどのように進化したか。
RQ2YOLOv5、YOLOv8、YOLOv10間で、精度、待機時間、モデルサイズのトレードオフは何か。
RQ3制約のあるハードウェアに適したデプロイメントの考慮事項（形式、最適化）は何か。
RQ4YOLOv10のNMS-freeアプローチは、待機時間と精度の点で従来バージョンとどのように比較されるか。

主な発見

モデル	入力サイズ	AP (val)	AP (val) 50	CPU待機時間（ms）	パラメータ（M）	FLOPs（B）
YOLOv5n	640	28.0%	45.7%	45	1.9	4.5
YOLOv5s	640	37.4%	56.8%	98	7.2	16.5
YOLOv5m	640	45.4%	64.1%	224	21.2	49.0
YOLOv5l	640	49.0%	67.3%	430	46.5	109.1
YOLOv5x	640	50.7%	68.9%	766	86.7	205.7

YOLOv5はCSPDarknetとMosaic Augmentationを導入し、速度と精度のバランスを取った。
YOLOv8はアンカーなし検出、PANetネックの改善、エッジ効率のための混合精度トレーニングを追加した。
YOLOv10はNMS-freeトレーニング、空間-チャネル分離ダウンサンプリング、大型カーネル畳み込みを特徴とし、オーバーヘッドを削減しつつ高精度を達成した。
モデルバリアント（nano から extra large まで）は、多様なエッジハードウェアに対してスケーラブルな選択肢を提供する。
Table 1 は、YOLOv5 variants 全体でAPが増加し、CPU待機時間とFLOPsが変動することを示している。
全体として、YOLOv10はエッジ展開で特に効率と精度の改善を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。