Skip to main content
QUICK REVIEW

[논문 리뷰] YOLOv12: Attention-Centric Real-Time Object Detectors

Yunjie Tian, Qixiang Ye|ArXiv.org|2025. 02. 18.
CCD and CMOS Imaging Sensors인용 수 193
한 줄 요약

YOLOv12는 area attention과 잔차-효율적 계층 집계를 도입하여 주의 중심의 실시간 검출기를 만들고 CNN 속도에 맞추면서 COCO에서 최첨단 정확도를 달성하고 YOLOv10/YOLOv11 및 RT-DETR 변형을 능가합니다.

ABSTRACT

Enhancing the network architecture of the YOLO framework has been crucial for a long time, but has focused on CNN-based improvements despite the proven superiority of attention mechanisms in modeling capabilities. This is because attention-based models cannot match the speed of CNN-based models. This paper proposes an attention-centric YOLO framework, namely YOLOv12, that matches the speed of previous CNN-based ones while harnessing the performance benefits of attention mechanisms. YOLOv12 surpasses all popular real-time object detectors in accuracy with competitive speed. For example, YOLOv12-N achieves 40.6% mAP with an inference latency of 1.64 ms on a T4 GPU, outperforming advanced YOLOv10-N / YOLOv11-N by 2.1%/1.2% mAP with a comparable speed. This advantage extends to other model scales. YOLOv12 also surpasses end-to-end real-time detectors that improve DETR, such as RT-DETR / RT-DETRv2: YOLOv12-S beats RT-DETR-R18 / RT-DETRv2-R18 while running 42% faster, using only 36% of the computation and 45% of the parameters. More comparisons are shown in Figure 1.

연구 동기 및 목표

  • 속도를 희생하지 않으면서 실시간 YOLO 검출기에 주의 메커니즘을 도입하려는 동기를 부여한다.
  • 계산량을 줄이면서 큰 수용 영역을 유지하기 위한 효율적인 area attention 모듈(A2)을 제안한다.
  • 주의 기반 백본의 최적화를 개선하기 위해 residual efficient layer aggregation networks (R-ELAN)을 도입한다.
  • FlashAttention 사용 및 위치 인코딩 제거를 포함하여 YOLO 워크플로에 맞춘 아키텍처 조정을 적용한다.
  • COCO에서 여러 모델 규모에 걸친 최첨단 지연-정확도 균형을 보여준다.

제안 방법

  • area attention (A2)가 특징 맵을 l개 영역으로 분할하여 주의 비용을 O(n^2)에서 대략 절반으로 줄이면서도 큰 수용 영역을 보존하도록 제안한다.
  • 주의 계산에서 메모리 접근 병목을 해결하기 위해 FlashAttention을 채택한다.
  • 잔차 입력-출력 경로와 병목 형태의 특징 합성을 갖춘 잔차-효율적 계층 집계 네트워크(R-ELAN)를 개발하여 더 큰 모델의 학습을 안정화한다.
  • MLP 비율을 1.2로 낮추고, linear+LN 대신 conv+BN을 사용하고, 위치 인코딩 제거, 그리고 대형 7x7 위치 인식기(position perceiver) 도입 등 YOLO를 위한 아키텍처 선택을 다듬는다.
  • 이전 YOLO 버전의 계층적 백본 설계를 유지하고 블록 적층을 단순화하며 다섯 스케일(N, S, M, L, X)에서 YOLO 프레임워크 내에 주의 모듈을 통합한다.
  • MSCOCO-2017에서 600 에폭으로 SGD, 선형 lr 감소, 그리고 T4 GPU에서 TensorRT FP16 지연 측정을 사용하여 학습하고 평가한다.

실험 결과

연구 질문

  • RQ1주의 중심의 YOLO(YOLOv12)가 정확도를 희생하지 않으면서 CNN 기반 검출기와 대등한 실시간 속도를 달성할 수 있는가?
  • RQ2area attention과 R-ELAN이 다중 모델 규모에서 실시간 물체 검출기의 안정적인 최적화와 우수한 성능을 가능하게 하는가?
  • RQ3표준 벤치마크에서 mAP, FLOPs, 매개변수 수 및 지연 측면에서 YOLOv12가 최첨단 실시간 검출기(YOLOv10/YOLOv11, RT-DETR)와 어떻게 비교되는가?
  • RQ4실시간 검출기에서 주의(attention)와 feed-forward 구성요소 간의 계산 균형을 맞추기 위해 필요한 건 무엇인가?

주요 결과

  • YOLOv12-N은 T4 GPU에서 1.64 ms 지연으로 40.6% mAP를 달성하여 YOLOv10-N보다 2.1% 포인트, YOLOv11-N보다 1.2% 포인트 높은 mAP를 달성한다.
  • YOLOv12-S는 2.61 ms 지연으로 48.0% mAP를 달성하며 FLOPs가 약 21.4G, 매개변수 약 9.3M으로 경쟁력 있는 성능을 보여준다.
  • YOLOv12-L 및 YOLOv12-X는 각각 53.7% 및 55.2%의 더 높은 mAP를 달성하며 확장 가능한 FLOPs와 매개변수를 보유하고, RT-DETR 변형에 비해 빠른 추론을 유지한다.
  • Area attention은 CUDA 및 CPU 벤치마크에서 상당한 속도 향상을 가져오며 정확도 손실 없이 추론 시간을 단축한다.
  • Ablation 연구는 더 큰 모델에서 R-ELAN의 안정성 이점을 보여주고, 위치 임베딩 제거가 속도를 개선하면서도 정확도에 해를 주지 않는다는 것을 시사한다.
  • 히트맵 시각화는 area attention의 더 큰 수용영역 덕분에 YOLOv12가 YOLOv10/YOLOv11보다 물체 인지가 더 선명하다는 것을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.