[논문 리뷰] YOLOv4: Optimal Speed and Accuracy of Object Detection
이 논문은 한 GPU에서 실시간 속도와 최첨단 정확도를 달성하는 실시간 객체 탐지기 YOLOv4를 제시한다. 이는 새로운 특징(BoF와 BoS) 및 SPP와 PANet 목(Nect)을 사용하는 최적화된 백본(CSPDarknet53)과 함께 MS COCO에서 검증되었다.
There are a huge number of features which are said to improve Convolutional Neural Network (CNN) accuracy. Practical testing of combinations of such features on large datasets, and theoretical justification of the result, is required. Some features operate on certain models exclusively and for certain problems exclusively, or only for small-scale datasets; while some features, such as batch-normalization and residual-connections, are applicable to the majority of models, tasks, and datasets. We assume that such universal features include Weighted-Residual-Connections (WRC), Cross-Stage-Partial-connections (CSP), Cross mini-Batch Normalization (CmBN), Self-adversarial-training (SAT) and Mish-activation. We use new features: WRC, CSP, CmBN, SAT, Mish activation, Mosaic data augmentation, CmBN, DropBlock regularization, and CIoU loss, and combine some of them to achieve state-of-the-art results: 43.5% AP (65.7% AP50) for the MS COCO dataset at a realtime speed of ~65 FPS on Tesla V100. Source code is at https://github.com/AlexeyAB/darknet
연구 동기 및 목표
- 일반 GPU에서 운용 가능한 빠른 실시간 객체 탐지기를 개발
- 탐지 정확도에 대한 최첨단 학습 및 아키텍처 특징의 영향을 조사
- 단일-GPU 학습 및 추론에 최적화된 백본/목/헤드 조합 설계
- 제안한 모델을 속도/정확도 측면에서 현존 탐지기와 비교 평가
- SyncBN 또는 다중 GPU 구성을 사용하지 않고 표준 GPU에서 학습이 가능하도록 재현 가능한 설정 제공
제안 방법
- YOLOv4 아키텍처로 YOLOv3와 유사한 헤드를 가진 SPP 및 PANet 목을 포함한 CSPDarknet53 백본 채택.
- Mosaic 데이터 증강, CutMix, 라벨 스무딩, DropBlock, Mish 활성화 등을 포함하는 Bag of Freebies(BoF) 사용
- 성능 향상을 위한 Mish 활성화, CSP, MiWRC 등의 Bag of Specials(BoS) 적용으로 추론 비용 최소화
- CIoU 손실, CmBN, DropBlock, Mosaic/SAT 데이터 증강, 다중 앵커 학습, 코사인 학습률 감소 및 최적 하이퍼파라미터 적용
- ImageNet 및 MS COCO에서 BoF/BoS 구성 요소의 분해실험을 통해 분류기 및 탐지기 성능 평가
- 608x608 입력을 사용한 COCO에서 약 65 FPS의 실시간 성능 달성 및 43.5% AP 달성 on Tesla V100

실험 결과
연구 질문
- RQ1단일 GPU에서 실시간 탐지를 위한 최적의 속도-정확도 트레이드오프를 제공하는 백본/목/헤드의 조합은 무엇인가?
- RQ2BoF와 BoS 개선이 추론 비용 증가 없이 탐지기 정확도에 어떤 영향을 미치는가?
- RQ3수정된 정규화 및 데이터 증강을 사용한 단일-GPU 학습으로 최첨단 COCO 결과를 달성할 수 있는가?
- RQ4YOLOv4가 일반 GPU에서 속도와 정확도 면에서 현존 탐지기와 어떻게 비교되는가?
- RQ5빠르고 정확한 탐지기를 위한 최적의 학습 하이퍼파라미터와 데이터 증강 전략은 무엇인가?
주요 결과
| 모델 | 백본 | 크기 | FPS | AP | AP50 | AP75 | AP_S | AP_M | AP_L |
|---|---|---|---|---|---|---|---|---|---|
| YOLOv4 | CSPDarknet-53 | 416 | 38 (M) | 41.2% | 62.8% | 44.3% | 20.4% | 44.4% | 56.0% |
| YOLOv4 | CSPDarknet-53 | 512 | 31 (M) | 43.0% | 64.9% | 46.5% | 24.3% | 46.1% | 55.2% |
| YOLOv4 | CSPDarknet-53 | 608 | 23 (M) | 43.5% | 65.7% | 47.3% | 26.7% | 46.7% | 53.3% |
- YOLOv4는 Tesla V100에서 약 65 FPS로 MS COCO에 대해 43.5% AP를 달성했다(65.7% AP50).
- SPP 및 PANet 목을 갖춘 CSPDarknet53 백본은 COCO 객체 탐지에서 대안보다 우수하며 실시간 속도를 가능하게 한다.
- BoF 방법(CutMix, Mosaic, 라벨 스무딩, DropBlock, Mish 활성화)은 추론 비용 증가 없이 분류기/탐지기 성능을 향상시킨다.
- BoS 구성요소(Mish, SPP, SAM, PAN, DIoU-NMS)는 관리 가능한 FPS에서 더 높은 AP에 기여하며, CSPDarknet53 기반 탐지기가 강력한 결과를 보인다.
- 416, 512 및 608 입력 크기에서 YOLOv4는 증가하는 AP 값과 대응하는 FPS를 달성한다: 예) 416: AP 41.2%, FPS 38; 512: AP 43.0%, FPS 31; 608: AP 43.5%, FPS 23.
- SyncBN 없이 단일 GPU에서 작동하므로 재현성이 더 넓다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.