QUICK REVIEW

[논문 리뷰] YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

Chien-Yao Wang, Alexey Bochkovskiy|arXiv (Cornell University)|2022. 07. 06.

Advanced Neural Network Applications인용 수 834

한 줄 요약

YOLOv7은 추론 비용을 증가시키지 않으면서 실시간 객체 탐지 정확도를 향상시키기 위해 학습 가능한 freebies를 도입하여 최첨단 속도-정확도 트레이드오프를 달성하고 MS COCO에서 처음부터 학습합니다.

ABSTRACT

YOLOv7 surpasses all known object detectors in both speed and accuracy in the range from 5 FPS to 160 FPS and has the highest accuracy 56.8% AP among all known real-time object detectors with 30 FPS or higher on GPU V100. YOLOv7-E6 object detector (56 FPS V100, 55.9% AP) outperforms both transformer-based detector SWIN-L Cascade-Mask R-CNN (9.2 FPS A100, 53.9% AP) by 509% in speed and 2% in accuracy, and convolutional-based detector ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) by 551% in speed and 0.7% AP in accuracy, as well as YOLOv7 outperforms: YOLOR, YOLOX, Scaled-YOLOv4, YOLOv5, DETR, Deformable DETR, DINO-5scale-R50, ViT-Adapter-B and many other object detectors in speed and accuracy. Moreover, we train YOLOv7 only on MS COCO dataset from scratch without using any other datasets or pre-trained weights. Source code is released in https://github.com/WongKinYiu/yolov7.

연구 동기 및 목표

실시간 객체 탐탐기들이 추론 비용을 증가시키지 않으면서 정확도를 향상시키도록 동기를 부여한다.
성능 향상을 위한 학습 시점의 개선( freebies )을 제안한다.
다중 헤드 학습에서 발생하는 재매개화 및 동적 레이블 할당 문제를 다룬다.
결합 기반 아키텍처를 위한 확장된 스케일링 및 컴파운드 스케일링을 소개한다.
이전 방법들과 비교하여 COCO에서 강한 속도-정확도 이득을 시연한다.

제안 방법

계획된 재매개된 합성(RepConvN)을 포함한 학습 가능한 자유로운 프리비를 도입한다.
Auxiliary 및 Lead 헤드에 대해 깊은 감독과 함께 거칠게 미세하게 이끄는 레이블 할당(코스-투-파인)을 도입한다.
Auxiliary 및 Lead 헤드를 사용하여 Lead 헤드 안내 Soft 레이블로 깊은 감독을 적용한다.
gradient 경로를 바꾸지 않으면서 학습을 개선하기 위한 그룹 합성 및 피처 맵 셔플링이 가능한 확장형 ELAN(E-ELAN)을 개발한다.
깊이-블록과 폭-전이의 조정 가능한 변화로 결합 기반 아키텍처를 위한 컴파운드 모델 스케일링을 구현한다.
외부 사전학습 없이 MS COCO에서 처음부터 YOLOv7 모델을 학습한다.

실험 결과

연구 질문

RQ1학습 가능한 학습 시 Trick(프리비)이 추론 비용을 증가시키지 않으면서 실시간 탐지기의 정확도를 향상시킬 수 있는가?
RQ2잔차/결합 블록 간의 그래디언트 흐름을 보존하기 위해 재매개화를 어떻게 계획할 수 있는가?
RQ3다수의 헤드/출력이 함께 학습될 때 동적 레이블 할당을 어떻게 다루어야 하는가?
RQ4정확도와 효율성을 극대화하기 위한 결합 기반 탐지기에 대한 효과적인 컴파운드 스케일링 전략은 무엇인가?
RQ5COCO에서의 초기 학습이 장치 설정 간 최첨단 성능을 달성하는 데 충분한가?

주요 결과

모델	매개변수 수	#FLOPs	크기	FPS	테스트 AP / 검증 AP	검증 AP @50	검증 AP @75	AP 검증 S	AP 검증 M	AP 검증 L
YOLOv7-E6E	151.7M	843.2G	1280	36	56.8% / 56.8%	74.4%	62.1%	39.3%	60.5%	69.0%
YOLOv7-D6	154.7M	806.8G	1280	44	56.6% / 56.3%	74.0%	61.8%	38.8%	60.1%	69.5%
YOLOv7-E6	97.2M	515.2G	1280	56	56.0% / 55.9%	73.5%	61.2%	38.0%	59.9%	68.4%
YOLOv7	36.9M	104.7G	640	161	51.4% / 51.2%	69.7%	55.9%	31.8%	55.5%	65.0%
YOLOv7-X	71.3M	189.9G	640	114	53.1% / 52.9%	71.2%	57.8%	33.8%	57.1%	67.4%

YOLOv7은 5–160 FPS 구간에서 실시간 탐지기 중 최고 속도-정확도 트레이드오프를 달성한다.
YOLOv7-E6E는 36 FPS(V100)에서 56.8% AP를 달성하며 속도와 정확도에서 변환기 기반 및 합성 기반의 기준선을 능가한다.
강력한 기준선(YOLOR, YOLOv4, YOLOv4-tiny, YOLOR-D6 등)과 비교할 때, YOLOv7 변형은 매개변수 수와 FLOPs를 줄이면서 많은 설정에서 AP를 향상시킨다.
제안된 컴파운드 스케일링 전략(블록 내 깊이 및 전이 폭의 협조적 변화)은 좁은 기준선 대비 AP를 최대 약 1.5포인트 향상시킨다.
RepConvN 기반 재매개화 및 코스-투-파인 감독으로 Lead-가이드 레이블 할당은 표준 비교대비 측정 가능한 이점을 제공한다.
YOLOv7-tiny 및 YOLOv7 변형은 이전의 실시간 탐지기에 비해 매개변수 수와 계산이 크게 감소한 상태에서 강력한 정확도 이득을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.