Skip to main content
QUICK REVIEW

[논문 리뷰] YOLOv11: An Overview of the Key Architectural Enhancements

Rahima Khanam, Muhammad Hussain|arXiv (Cornell University)|2024. 10. 23.
Advanced Neural Network Applications인용 수 456
한 줄 요약

본 논문은 YOLOv11의 아키텍처 혁신(C3k2, SPPF, C2PSA)과 다중 태스크 기능을 분석하고, Nano에서 XLarge 변형에 이르는 계열에서 선두 모델들과의 속도와 정확도를 벤치마크한다.

ABSTRACT

This study presents an architectural analysis of YOLOv11, the latest iteration in the YOLO (You Only Look Once) series of object detection models. We examine the models architectural innovations, including the introduction of the C3k2 (Cross Stage Partial with kernel size 2) block, SPPF (Spatial Pyramid Pooling - Fast), and C2PSA (Convolutional block with Parallel Spatial Attention) components, which contribute in improving the models performance in several ways such as enhanced feature extraction. The paper explores YOLOv11's expanded capabilities across various computer vision tasks, including object detection, instance segmentation, pose estimation, and oriented object detection (OBB). We review the model's performance improvements in terms of mean Average Precision (mAP) and computational efficiency compared to its predecessors, with a focus on the trade-off between parameter count and accuracy. Additionally, the study discusses YOLOv11's versatility across different model sizes, from nano to extra-large, catering to diverse application needs from edge devices to high-performance computing environments. Our research provides insights into YOLOv11's position within the broader landscape of object detection and its potential impact on real-time computer vision applications.

연구 동기 및 목표

  • YOLOv11에서 도입된 아키텍처 향상(C3k2, SPPF, C2PSA)과 피처 추출 및 효율성에 미치는 영향 평가.
  • 객체 탐지, 인스턴스 분할, 자세 추정, OBB 등 여러 CV 작업에서의 YOLOv11 평가 및 나노에서 엑스트라 라지 모델까지의 확장성 검토.
  • 이전 YOLO 버전과의 성능(mAP 및 속도) 비교 및 배포 시사점 논의.

제안 방법

  • YOLOv11 아키텍처와 백본, 네크, 헤드의 역할을 자세히 설명한다.
  • 더 빠른 CSP 병목 대체로서 C3k2 블록을 도입하고 설명한다.
  • 새로운 C2PSA 주의 블록과 함께 SPPF를 도입하여 공간적 초점을 강화한다.
  • SiLU 활성화(CBS 블록)를 갖는 C3k2 블록과 CBS 계의 헤드 사용을 설명한다.
  • 모델 변형(nano to xlarge)과 지원 작업(detection, seg, pose, obb, cls)을 제시한다.
  • 이전 YOLO 버전과의 벤치마크 스타일 비교를 제공하고 변형 간 mAP 및 추론 속도를 강조한다.
Figure 1: Key architectural modules in YOLO11
Figure 1: Key architectural modules in YOLO11

실험 결과

연구 질문

  • RQ1YOLOv11의 어떤 아키텍처 혁신이 피처 추출 및 탐지 정확도를 향상시키는가?
  • RQ2새로운 블록(C3k2, SPPF, C2PSA)이 계산 효율성과 매개변수 수에 어떤 영향을 미치는가?
  • RQ3다양한 CV 작업(탐지, 인스턴스 분할, 자세 추정, 방향성 객체 탐지) 및 모델 크기에서의 YOLOv11 성능은 어떠한가?
  • RQ4COCO 및 기타 벤치마크에서 mAP 및 추론 속도 면에서 YOLOv11은 선행 버전과 비교하여 어떤가?

주요 결과

  • YOLOv11은 더 빠른 처리를 위해 백본과 네크에서 C2f를 대체하는 C3k2 블록을 도입한다.
  • 새로운 C2PSA 공간 주의 모듈은 특징 맵의 중요한 영역에 대한 초점을 강화한다.
  • 헤드는 SiLU 활성화를 갖는 다수의 C3k2 블록과 CBS 계를 사용하여 정교한 예측을 제공한다.
  • YOLOv11은 엣지에서 클라우드 배포까지 커버하는 나노에서 엑스라지까지 모델 변형을 제공한다.
  • 선행 버전과 비교하여 YOLOv11은 더 높은 mAP를 달성하며 매개변수 수가 감소하거나 경쟁적이고, COCO 벤치마크에서 여러 변형에서 더 빠른 추론 속도를 보인다(예: 11x ~13 ms).
  • YOLOv11은 객체 탐지, 인스턴스 분할, 자세 추정 및 방향성 객체 탐지 전반에서 다양성을 보여준다.
Figure 2: Benchmarking YOLOv11 Against Previous Versions [ 23 ]
Figure 2: Benchmarking YOLOv11 Against Previous Versions [ 23 ]

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.