[論文レビュー] YOLOv11: An Overview of the Key Architectural Enhancements
本論文は YOLOv11 の建築上的革新(C3k2、SPPF、C2PSA)と多タスク能力を分析し、Nano から XLarge バリアントにわたる先行モデルと比較して速度と精度をベンチマークする。
This study presents an architectural analysis of YOLOv11, the latest iteration in the YOLO (You Only Look Once) series of object detection models. We examine the models architectural innovations, including the introduction of the C3k2 (Cross Stage Partial with kernel size 2) block, SPPF (Spatial Pyramid Pooling - Fast), and C2PSA (Convolutional block with Parallel Spatial Attention) components, which contribute in improving the models performance in several ways such as enhanced feature extraction. The paper explores YOLOv11's expanded capabilities across various computer vision tasks, including object detection, instance segmentation, pose estimation, and oriented object detection (OBB). We review the model's performance improvements in terms of mean Average Precision (mAP) and computational efficiency compared to its predecessors, with a focus on the trade-off between parameter count and accuracy. Additionally, the study discusses YOLOv11's versatility across different model sizes, from nano to extra-large, catering to diverse application needs from edge devices to high-performance computing environments. Our research provides insights into YOLOv11's position within the broader landscape of object detection and its potential impact on real-time computer vision applications.
研究の動機と目的
- YOLOv11で導入された建築上の改良(C3k2、SPPF、C2PSA)と、それらが特徴抽出と効率に与える影響を評価する。
- 複数のCVタスク(物体検出、インスタンスセグメンテーション、姿勢推定、OBB)に対するYOLOv11を評価し、nanoからextra-largeモデルまでのスケーラビリティを検討する。
- 従来のYOLOバージョンと比較したYOLOv11の性能(mAPと速度)を比較し、デプロイメントへの示唆を論じる。
提案手法
- YOLOv11のアーキテクチャと、バックボーン・ネック・ヘッドの役割を詳述する。
- C3k2ブロックを、より高速なCSPボトルネックの置換として導入・説明する。
- 新しいC2PSA注意ブロックを用いたSPPFを組み込み、空間的フォーカスを強化する。
- ヘッドがC3k2ブロックとSiLU活性化を用いたCBSレイヤ(CBSブロック)を使用する点を説明する。
- モデルバリアント(nano から xlarge)と、それらがサポートするタスク(検出、 seg、姿勢、obb、cls)を提示する。
- 従来のYOLOバージョンとのベンチマーク風比較を提供し、各バリアントでのmAPと推論速度を強調する。

実験結果
リサーチクエスチョン
- RQ1YOLOv11のどの建築的革新が特徴抽出と検出精度を改善するか?
- RQ2新しいブロック(C3k2、SPPF、C2PSA)は計算効率とパラメータ数にどう影響するか?
- RQ3異なるCVタスク(検出、インスタンスセグメンテーション、姿勢推定、 oriented object detection)およびモデルサイズに対するYOLOv11の性能はどうか?
- RQ4COCOおよび他のベンチマークで、mAPと推論速度の点で先行モデルと比較してYOLOv11はどうか?
主な発見
- YOLOv11は、バックボーンとネックでC2fを置換するC3k2ブロックを導入し、処理を高速化する。
- 新しいC2PSA空間注意モジュールは、特徴マップの重要な領域へのフォーカスを高める。
- ヘッドは、複数のC3k2ブロックとSiLU活性化を用いたCBSレイヤを用いて、精緻な予測を行う。
- YOLOv11はエッジからクラウドのデプロイメントをカバーするnanoからxlargeまでのモデルバリアントを提供する。
- 先行モデルと比較して、YOLOv11はより高いmAPを達成し、パラメータ数は削減または競合的で、いくつかのバリアントで推論が高速(例:11xは約13 ms)で、COCOベンチマーク全体でそう。
- YOLOv11は物体検出、インスタンスセグメンテーション、姿勢推定、方位オブジェクト検出の分野で汎用性を示す。
![Figure 2: Benchmarking YOLOv11 Against Previous Versions [ 23 ]](https://ar5iv.labs.arxiv.org/html/2410.17725/assets/f2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。