[论文解读] YOLOv11: An Overview of the Key Architectural Enhancements
本文分析 YOLOv11 的架构创新(C3k2、SPPF、C2PSA)及其多任务能力,并在 Nano 到 XLarge 变体之间对比前身的速度与准确性。
This study presents an architectural analysis of YOLOv11, the latest iteration in the YOLO (You Only Look Once) series of object detection models. We examine the models architectural innovations, including the introduction of the C3k2 (Cross Stage Partial with kernel size 2) block, SPPF (Spatial Pyramid Pooling - Fast), and C2PSA (Convolutional block with Parallel Spatial Attention) components, which contribute in improving the models performance in several ways such as enhanced feature extraction. The paper explores YOLOv11's expanded capabilities across various computer vision tasks, including object detection, instance segmentation, pose estimation, and oriented object detection (OBB). We review the model's performance improvements in terms of mean Average Precision (mAP) and computational efficiency compared to its predecessors, with a focus on the trade-off between parameter count and accuracy. Additionally, the study discusses YOLOv11's versatility across different model sizes, from nano to extra-large, catering to diverse application needs from edge devices to high-performance computing environments. Our research provides insights into YOLOv11's position within the broader landscape of object detection and its potential impact on real-time computer vision applications.
研究动机与目标
- 评估 YOLOv11 的架构改进(C3k2、SPPF、C2PSA)及其对特征提取和效率的影响。
- 在多种 CV 任务(目标检测、实例分割、姿态估计、OBB)上评估 YOLOv11,并从 nano 到 extra-large 模型的可扩展性。
- 将 YOLOv11 的性能(mAP 和速度)与早期 YOLO 版本进行比较,并讨论部署含义。
提出的方法
- 详细描述 YOLOv11 的架构以及骨干网、颈部、头部在其中的作用。
- 介绍并解释作为更快的 CSP 瓶颈替代的 C3k2 块。
- 将 SPPF 与新的 C2PSA 注意力块结合,以增强对空间焦点的关注。
- 解释头部使用的 C3k2 块和带 SiLU 激活的 CBS 层(CBS 块),用于细化预测。
- 展示模型变体(nano 到 xlarge)及其支持的任务(检测、分割、姿态、OBB、分类)。
- 提供基准风格的与先前 YOLO 版本的比较,突出各变体的 mAP 和推理速度。

实验结果
研究问题
- RQ1YOLOv11 在特征提取和检测精度方面有哪些架构创新?
- RQ2新块(C3k2、SPPF、C2PSA)如何影响计算效率和参数数量?
- RQ3YOLOv11 在不同 CV 任务(检测、实例分割、姿态估计、定向对象检测)和模型尺寸下的性能如何?
- RQ4与前代相比,YOLOv11 在 COCO 等基准上的 mAP 和推理速度表现如何?
主要发现
- YOLOv11 在骨干网和颈部用 C3k2 块替代 C2f,以实现更快的处理。
- 引入新的 C2PSA 空间注意力模块以增强对特征图中重要区域的聚焦。
- 头部使用多个 C3k2 块和带 SiLU 激活的 CBS 层以获得更精细的预测。
- YOLOv11 提供从 nano 到 xlarge 的模型变体,覆盖边缘到云端部署。
- 与前代相比,YOLOv11 在多变体(如 11x)的 COCO 基准上实现了更高的 mAP,且参数量较少或具有竞争力,推理速度更快(在 COCO 基准中达到约 ~13 ms 对应 11x 等变体)。
- YOLOv11 展现出在目标检测、实例分割、姿态估计和定向目标检测方面的多功能性。
![Figure 2: Benchmarking YOLOv11 Against Previous Versions [ 23 ]](https://ar5iv.labs.arxiv.org/html/2410.17725/assets/f2.png)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。