[논문 리뷰] YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
YOLOv7은 추론 비용을 증가시키지 않으면서 실시간 객체 탐지 정확도를 향상시키기 위해 학습 가능한 freebies를 도입하여 최첨단 속도-정확도 트레이드오프를 달성하고 MS COCO에서 처음부터 학습합니다.
YOLOv7 surpasses all known object detectors in both speed and accuracy in the range from 5 FPS to 160 FPS and has the highest accuracy 56.8% AP among all known real-time object detectors with 30 FPS or higher on GPU V100. YOLOv7-E6 object detector (56 FPS V100, 55.9% AP) outperforms both transformer-based detector SWIN-L Cascade-Mask R-CNN (9.2 FPS A100, 53.9% AP) by 509% in speed and 2% in accuracy, and convolutional-based detector ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) by 551% in speed and 0.7% AP in accuracy, as well as YOLOv7 outperforms: YOLOR, YOLOX, Scaled-YOLOv4, YOLOv5, DETR, Deformable DETR, DINO-5scale-R50, ViT-Adapter-B and many other object detectors in speed and accuracy. Moreover, we train YOLOv7 only on MS COCO dataset from scratch without using any other datasets or pre-trained weights. Source code is released in https://github.com/WongKinYiu/yolov7.
연구 동기 및 목표
- 실시간 객체 탐탐기들이 추론 비용을 증가시키지 않으면서 정확도를 향상시키도록 동기를 부여한다.
- 성능 향상을 위한 학습 시점의 개선( freebies )을 제안한다.
- 다중 헤드 학습에서 발생하는 재매개화 및 동적 레이블 할당 문제를 다룬다.
- 결합 기반 아키텍처를 위한 확장된 스케일링 및 컴파운드 스케일링을 소개한다.
- 이전 방법들과 비교하여 COCO에서 강한 속도-정확도 이득을 시연한다.
제안 방법
- 계획된 재매개된 합성(RepConvN)을 포함한 학습 가능한 자유로운 프리비를 도입한다.
- Auxiliary 및 Lead 헤드에 대해 깊은 감독과 함께 거칠게 미세하게 이끄는 레이블 할당(코스-투-파인)을 도입한다.
- Auxiliary 및 Lead 헤드를 사용하여 Lead 헤드 안내 Soft 레이블로 깊은 감독을 적용한다.
- gradient 경로를 바꾸지 않으면서 학습을 개선하기 위한 그룹 합성 및 피처 맵 셔플링이 가능한 확장형 ELAN(E-ELAN)을 개발한다.
- 깊이-블록과 폭-전이의 조정 가능한 변화로 결합 기반 아키텍처를 위한 컴파운드 모델 스케일링을 구현한다.
- 외부 사전학습 없이 MS COCO에서 처음부터 YOLOv7 모델을 학습한다.
실험 결과
연구 질문
- RQ1학습 가능한 학습 시 Trick(프리비)이 추론 비용을 증가시키지 않으면서 실시간 탐지기의 정확도를 향상시킬 수 있는가?
- RQ2잔차/결합 블록 간의 그래디언트 흐름을 보존하기 위해 재매개화를 어떻게 계획할 수 있는가?
- RQ3다수의 헤드/출력이 함께 학습될 때 동적 레이블 할당을 어떻게 다루어야 하는가?
- RQ4정확도와 효율성을 극대화하기 위한 결합 기반 탐지기에 대한 효과적인 컴파운드 스케일링 전략은 무엇인가?
- RQ5COCO에서의 초기 학습이 장치 설정 간 최첨단 성능을 달성하는 데 충분한가?
주요 결과
| 모델 | 매개변수 수 | #FLOPs | 크기 | FPS | 테스트 AP / 검증 AP | 검증 AP @50 | 검증 AP @75 | AP 검증 S | AP 검증 M | AP 검증 L |
|---|---|---|---|---|---|---|---|---|---|---|
| YOLOv7-E6E | 151.7M | 843.2G | 1280 | 36 | 56.8% / 56.8% | 74.4% | 62.1% | 39.3% | 60.5% | 69.0% |
| YOLOv7-D6 | 154.7M | 806.8G | 1280 | 44 | 56.6% / 56.3% | 74.0% | 61.8% | 38.8% | 60.1% | 69.5% |
| YOLOv7-E6 | 97.2M | 515.2G | 1280 | 56 | 56.0% / 55.9% | 73.5% | 61.2% | 38.0% | 59.9% | 68.4% |
| YOLOv7 | 36.9M | 104.7G | 640 | 161 | 51.4% / 51.2% | 69.7% | 55.9% | 31.8% | 55.5% | 65.0% |
| YOLOv7-X | 71.3M | 189.9G | 640 | 114 | 53.1% / 52.9% | 71.2% | 57.8% | 33.8% | 57.1% | 67.4% |
- YOLOv7은 5–160 FPS 구간에서 실시간 탐지기 중 최고 속도-정확도 트레이드오프를 달성한다.
- YOLOv7-E6E는 36 FPS(V100)에서 56.8% AP를 달성하며 속도와 정확도에서 변환기 기반 및 합성 기반의 기준선을 능가한다.
- 강력한 기준선(YOLOR, YOLOv4, YOLOv4-tiny, YOLOR-D6 등)과 비교할 때, YOLOv7 변형은 매개변수 수와 FLOPs를 줄이면서 많은 설정에서 AP를 향상시킨다.
- 제안된 컴파운드 스케일링 전략(블록 내 깊이 및 전이 폭의 협조적 변화)은 좁은 기준선 대비 AP를 최대 약 1.5포인트 향상시킨다.
- RepConvN 기반 재매개화 및 코스-투-파인 감독으로 Lead-가이드 레이블 할당은 표준 비교대비 측정 가능한 이점을 제공한다.
- YOLOv7-tiny 및 YOLOv7 변형은 이전의 실시간 탐지기에 비해 매개변수 수와 계산이 크게 감소한 상태에서 강력한 정확도 이득을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.