Skip to main content
QUICK REVIEW

[논문 리뷰] YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

Chien-Yao Wang, Alexey Bochkovskiy|arXiv (Cornell University)|2022. 07. 06.
Advanced Neural Network Applications인용 수 834
한 줄 요약

YOLOv7은 추론 비용을 증가시키지 않으면서 실시간 객체 탐지 정확도를 향상시키기 위해 학습 가능한 freebies를 도입하여 최첨단 속도-정확도 트레이드오프를 달성하고 MS COCO에서 처음부터 학습합니다.

ABSTRACT

YOLOv7 surpasses all known object detectors in both speed and accuracy in the range from 5 FPS to 160 FPS and has the highest accuracy 56.8% AP among all known real-time object detectors with 30 FPS or higher on GPU V100. YOLOv7-E6 object detector (56 FPS V100, 55.9% AP) outperforms both transformer-based detector SWIN-L Cascade-Mask R-CNN (9.2 FPS A100, 53.9% AP) by 509% in speed and 2% in accuracy, and convolutional-based detector ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) by 551% in speed and 0.7% AP in accuracy, as well as YOLOv7 outperforms: YOLOR, YOLOX, Scaled-YOLOv4, YOLOv5, DETR, Deformable DETR, DINO-5scale-R50, ViT-Adapter-B and many other object detectors in speed and accuracy. Moreover, we train YOLOv7 only on MS COCO dataset from scratch without using any other datasets or pre-trained weights. Source code is released in https://github.com/WongKinYiu/yolov7.

연구 동기 및 목표

  • 실시간 객체 탐탐기들이 추론 비용을 증가시키지 않으면서 정확도를 향상시키도록 동기를 부여한다.
  • 성능 향상을 위한 학습 시점의 개선( freebies )을 제안한다.
  • 다중 헤드 학습에서 발생하는 재매개화 및 동적 레이블 할당 문제를 다룬다.
  • 결합 기반 아키텍처를 위한 확장된 스케일링 및 컴파운드 스케일링을 소개한다.
  • 이전 방법들과 비교하여 COCO에서 강한 속도-정확도 이득을 시연한다.

제안 방법

  • 계획된 재매개된 합성(RepConvN)을 포함한 학습 가능한 자유로운 프리비를 도입한다.
  • Auxiliary 및 Lead 헤드에 대해 깊은 감독과 함께 거칠게 미세하게 이끄는 레이블 할당(코스-투-파인)을 도입한다.
  • Auxiliary 및 Lead 헤드를 사용하여 Lead 헤드 안내 Soft 레이블로 깊은 감독을 적용한다.
  • gradient 경로를 바꾸지 않으면서 학습을 개선하기 위한 그룹 합성 및 피처 맵 셔플링이 가능한 확장형 ELAN(E-ELAN)을 개발한다.
  • 깊이-블록과 폭-전이의 조정 가능한 변화로 결합 기반 아키텍처를 위한 컴파운드 모델 스케일링을 구현한다.
  • 외부 사전학습 없이 MS COCO에서 처음부터 YOLOv7 모델을 학습한다.

실험 결과

연구 질문

  • RQ1학습 가능한 학습 시 Trick(프리비)이 추론 비용을 증가시키지 않으면서 실시간 탐지기의 정확도를 향상시킬 수 있는가?
  • RQ2잔차/결합 블록 간의 그래디언트 흐름을 보존하기 위해 재매개화를 어떻게 계획할 수 있는가?
  • RQ3다수의 헤드/출력이 함께 학습될 때 동적 레이블 할당을 어떻게 다루어야 하는가?
  • RQ4정확도와 효율성을 극대화하기 위한 결합 기반 탐지기에 대한 효과적인 컴파운드 스케일링 전략은 무엇인가?
  • RQ5COCO에서의 초기 학습이 장치 설정 간 최첨단 성능을 달성하는 데 충분한가?

주요 결과

모델매개변수 수#FLOPs크기FPS테스트 AP / 검증 AP검증 AP @50검증 AP @75AP 검증 SAP 검증 MAP 검증 L
YOLOv7-E6E151.7M843.2G12803656.8% / 56.8%74.4%62.1%39.3%60.5%69.0%
YOLOv7-D6154.7M806.8G12804456.6% / 56.3%74.0%61.8%38.8%60.1%69.5%
YOLOv7-E697.2M515.2G12805656.0% / 55.9%73.5%61.2%38.0%59.9%68.4%
YOLOv736.9M104.7G64016151.4% / 51.2%69.7%55.9%31.8%55.5%65.0%
YOLOv7-X71.3M189.9G64011453.1% / 52.9%71.2%57.8%33.8%57.1%67.4%
  • YOLOv7은 5–160 FPS 구간에서 실시간 탐지기 중 최고 속도-정확도 트레이드오프를 달성한다.
  • YOLOv7-E6E는 36 FPS(V100)에서 56.8% AP를 달성하며 속도와 정확도에서 변환기 기반 및 합성 기반의 기준선을 능가한다.
  • 강력한 기준선(YOLOR, YOLOv4, YOLOv4-tiny, YOLOR-D6 등)과 비교할 때, YOLOv7 변형은 매개변수 수와 FLOPs를 줄이면서 많은 설정에서 AP를 향상시킨다.
  • 제안된 컴파운드 스케일링 전략(블록 내 깊이 및 전이 폭의 협조적 변화)은 좁은 기준선 대비 AP를 최대 약 1.5포인트 향상시킨다.
  • RepConvN 기반 재매개화 및 코스-투-파인 감독으로 Lead-가이드 레이블 할당은 표준 비교대비 측정 가능한 이점을 제공한다.
  • YOLOv7-tiny 및 YOLOv7 변형은 이전의 실시간 탐지기에 비해 매개변수 수와 계산이 크게 감소한 상태에서 강력한 정확도 이득을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.