Skip to main content
QUICK REVIEW

[논문 리뷰] YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Chien-Yao Wang, I-Hau Yeh|arXiv (Cornell University)|2024. 02. 21.
COVID-19 diagnosis using AI인용 수 335
한 줄 요약

이 논문은 Programmable Gradient Information (PGI)와 Generalized Efficient Layer Aggregation Network (GELAN)을 도입하여 train-from-scratch YOLOv9를 가능하게 하고 정보 보존과 효율성을 개선하여 MS COCO에서 실시간 객체 탐지의 최첨단 성능을 달성한다.

ABSTRACT

Today's deep learning methods focus on how to design the most appropriate objective functions so that the prediction results of the model can be closest to the ground truth. Meanwhile, an appropriate architecture that can facilitate acquisition of enough information for prediction has to be designed. Existing methods ignore a fact that when input data undergoes layer-by-layer feature extraction and spatial transformation, large amount of information will be lost. This paper will delve into the important issues of data loss when data is transmitted through deep networks, namely information bottleneck and reversible functions. We proposed the concept of programmable gradient information (PGI) to cope with the various changes required by deep networks to achieve multiple objectives. PGI can provide complete input information for the target task to calculate objective function, so that reliable gradient information can be obtained to update network weights. In addition, a new lightweight network architecture -- Generalized Efficient Layer Aggregation Network (GELAN), based on gradient path planning is designed. GELAN's architecture confirms that PGI has gained superior results on lightweight models. We verified the proposed GELAN and PGI on MS COCO dataset based object detection. The results show that GELAN only uses conventional convolution operators to achieve better parameter utilization than the state-of-the-art methods developed based on depth-wise convolution. PGI can be used for variety of models from lightweight to large. It can be used to obtain complete information, so that train-from-scratch models can achieve better results than state-of-the-art models pre-trained using large datasets, the comparison results are shown in Figure 1. The source codes are at: https://github.com/WongKinYiu/yolov9.

연구 동기 및 목표

  • 딥 네트워크의 피드포워드 처리 도중 정보 손실(정보 병목)을 동기 부여하고 해결한다.
  • 추가적인 가역적 가지를 통해 신뢰할 수 있는 기울기 정보를 제공하는 프레임워크(PGI)를 개발한다.
  • 전통적 합성곱으로 정보 보존을 통해 매개변수 활용을 개선하는 경량화되고 유연한 아키텍처(GELAN)를 설계한다.
  • PGI와 GELAN을 도입한 YOLOv9가 train-from-scratch 설정에서 MS COCO의 기존 실시간 탐지기보다 성능이 우수함을 입증한다.

제안 방법

  • Programmable Gradient Information (PGI)을 구성: (i) 주된 추론 분기, (ii) 신뢰할 수한 기울기를 제공하는 보조 가역 분기, 그리고 (iii) 피처 피라미드 간의 의미적 지침을 균형 있게 하는 다중 수준 보조 정보.
  • 추가 비용 없이 정보 병목 현상을 완화하기 위해 보조 가역 분기를 도입한다.
  • 깊은 감독에서 정보 손실을 방지하기 위해 서로 다른 예측 헤드의 기울기를 융합하는 다중 수준의 보조 정보를 도입한다.
  • ELAN을 GELAN으로 일반화하여, CSP, RES, DARK 등의 다양한 합성곱 블록을 사용할 수 있으며 매개변수 효율성과 속도를 최적화하는 모듈식 아키텍처.
  • CSPNet 기반 백본에서 ELAN 블록을 GELAN으로 교체하여 YOLOv9 백본/넥을 형성하고 앵커 프리 예측 헤드를 채택한다.
  • train-from-scratch 설정에서 MS COCO로 평가하고 최신 실시간 탐지기와 비교한다.

실험 결과

연구 질문

  • RQ1PGI가 경량 모델과 대형 모델 모두에 신뢰할 수 있는 기울기를 제공하여 추가 추론 비용 없이 학습을 향상시킬 수 있는가?
  • RQ2GELAN이 깊이별 컨볼루션 기반 설계보다 매개변수 활용도와 속도를 향상시키면서 정확도를 유지하거나 향상시킬 수 있는가?
  • RQ3보조 가역 분기와 다중 수준 보조 정보가 정보 보존 및 수렴에 모델 규모에 따라 어떤 영향을 미치는가?

주요 결과

  • YOLOv9 변형은 train-from-scratch 학습으로 MS COCO에서 강력한 실시간 객체 탐지 성능을 달성합니다: GELAN-S 46.7 AP50:95, GELAN-M 51.1 AP50:95, GELAN-C 52.5 AP50:95, GELAN-E 55.0 AP50:95; YOLOv9-S 46.8, YOLOv9-M 51.4, YOLOv9-C 53.0, YOLOv9-E 55.6 AP50:95.
  • YOLOv9-C 및 YOLOv9-E는 비교 가능한 모델보다 AP50:95에서 우수한 성능을 보이며 여러 베이스라인보다 적은 매개변수와 계산으로도 달성합니다(예: 보고된 비교에서 YOLOv7 AF 및 YOLOv8-X 대비).
  • GELAN은 깊이별 컨볼루션 의존도를 줄이고 매개변수 효율성을 높이며 GELAN-S, GELAN-M, GELAN-C, GELAN-E가 모델 규모 전반에서 안정적인 이득을 보여줍니다.
  • 변인 분석은 PGI가 백본/목 구성 및 모델 크기에 관계없이 정확도를 지속적으로 향상시키며, 보조 가역 분기와 다중 수준 보조 정보가 깊은 감독만으로는 얻기 어려운 이득을 제공합니다.
  • PGI는 train-from-scratch 모델이 일부 사전 학습된 대형 모델의 정확도에 필적하거나 이를 능가하면서도 매개변수 수와 FLOPs를 줄일 수 있음을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.