QUICK REVIEW

[논문 리뷰] YOLOv12: Attention-Centric Real-Time Object Detectors

Yunjie Tian, Qixiang Ye|ArXiv.org|2025. 02. 18.

CCD and CMOS Imaging Sensors인용 수 193

한 줄 요약

YOLOv12는 area attention과 잔차-효율적 계층 집계를 도입하여 주의 중심의 실시간 검출기를 만들고 CNN 속도에 맞추면서 COCO에서 최첨단 정확도를 달성하고 YOLOv10/YOLOv11 및 RT-DETR 변형을 능가합니다.

ABSTRACT

Enhancing the network architecture of the YOLO framework has been crucial for a long time, but has focused on CNN-based improvements despite the proven superiority of attention mechanisms in modeling capabilities. This is because attention-based models cannot match the speed of CNN-based models. This paper proposes an attention-centric YOLO framework, namely YOLOv12, that matches the speed of previous CNN-based ones while harnessing the performance benefits of attention mechanisms. YOLOv12 surpasses all popular real-time object detectors in accuracy with competitive speed. For example, YOLOv12-N achieves 40.6% mAP with an inference latency of 1.64 ms on a T4 GPU, outperforming advanced YOLOv10-N / YOLOv11-N by 2.1%/1.2% mAP with a comparable speed. This advantage extends to other model scales. YOLOv12 also surpasses end-to-end real-time detectors that improve DETR, such as RT-DETR / RT-DETRv2: YOLOv12-S beats RT-DETR-R18 / RT-DETRv2-R18 while running 42% faster, using only 36% of the computation and 45% of the parameters. More comparisons are shown in Figure 1.

연구 동기 및 목표

속도를 희생하지 않으면서 실시간 YOLO 검출기에 주의 메커니즘을 도입하려는 동기를 부여한다.
계산량을 줄이면서 큰 수용 영역을 유지하기 위한 효율적인 area attention 모듈(A2)을 제안한다.
주의 기반 백본의 최적화를 개선하기 위해 residual efficient layer aggregation networks (R-ELAN)을 도입한다.
FlashAttention 사용 및 위치 인코딩 제거를 포함하여 YOLO 워크플로에 맞춘 아키텍처 조정을 적용한다.
COCO에서 여러 모델 규모에 걸친 최첨단 지연-정확도 균형을 보여준다.

제안 방법

area attention (A2)가 특징 맵을 l개 영역으로 분할하여 주의 비용을 O(n^2)에서 대략 절반으로 줄이면서도 큰 수용 영역을 보존하도록 제안한다.
주의 계산에서 메모리 접근 병목을 해결하기 위해 FlashAttention을 채택한다.
잔차 입력-출력 경로와 병목 형태의 특징 합성을 갖춘 잔차-효율적 계층 집계 네트워크(R-ELAN)를 개발하여 더 큰 모델의 학습을 안정화한다.
MLP 비율을 1.2로 낮추고, linear+LN 대신 conv+BN을 사용하고, 위치 인코딩 제거, 그리고 대형 7x7 위치 인식기(position perceiver) 도입 등 YOLO를 위한 아키텍처 선택을 다듬는다.
이전 YOLO 버전의 계층적 백본 설계를 유지하고 블록 적층을 단순화하며 다섯 스케일(N, S, M, L, X)에서 YOLO 프레임워크 내에 주의 모듈을 통합한다.
MSCOCO-2017에서 600 에폭으로 SGD, 선형 lr 감소, 그리고 T4 GPU에서 TensorRT FP16 지연 측정을 사용하여 학습하고 평가한다.

실험 결과

연구 질문

RQ1주의 중심의 YOLO(YOLOv12)가 정확도를 희생하지 않으면서 CNN 기반 검출기와 대등한 실시간 속도를 달성할 수 있는가?
RQ2area attention과 R-ELAN이 다중 모델 규모에서 실시간 물체 검출기의 안정적인 최적화와 우수한 성능을 가능하게 하는가?
RQ3표준 벤치마크에서 mAP, FLOPs, 매개변수 수 및 지연 측면에서 YOLOv12가 최첨단 실시간 검출기(YOLOv10/YOLOv11, RT-DETR)와 어떻게 비교되는가?
RQ4실시간 검출기에서 주의(attention)와 feed-forward 구성요소 간의 계산 균형을 맞추기 위해 필요한 건 무엇인가?

주요 결과

YOLOv12-N은 T4 GPU에서 1.64 ms 지연으로 40.6% mAP를 달성하여 YOLOv10-N보다 2.1% 포인트, YOLOv11-N보다 1.2% 포인트 높은 mAP를 달성한다.
YOLOv12-S는 2.61 ms 지연으로 48.0% mAP를 달성하며 FLOPs가 약 21.4G, 매개변수 약 9.3M으로 경쟁력 있는 성능을 보여준다.
YOLOv12-L 및 YOLOv12-X는 각각 53.7% 및 55.2%의 더 높은 mAP를 달성하며 확장 가능한 FLOPs와 매개변수를 보유하고, RT-DETR 변형에 비해 빠른 추론을 유지한다.
Area attention은 CUDA 및 CPU 벤치마크에서 상당한 속도 향상을 가져오며 정확도 손실 없이 추론 시간을 단축한다.
Ablation 연구는 더 큰 모델에서 R-ELAN의 안정성 이점을 보여주고, 위치 임베딩 제거가 속도를 개선하면서도 정확도에 해를 주지 않는다는 것을 시사한다.
히트맵 시각화는 area attention의 더 큰 수용영역 덕분에 YOLOv12가 YOLOv10/YOLOv11보다 물체 인지가 더 선명하다는 것을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.