[论文解读] YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
这篇论文提出 Programmable Gradient Information (PGI) 和 Generalized Efficient Layer Aggregation Network (GELAN),以实现从头训练的 YOLOv9,具备更出色的信息保留与效率,在 MS COCO 上实现实时对象检测的最先进水平。
Today's deep learning methods focus on how to design the most appropriate objective functions so that the prediction results of the model can be closest to the ground truth. Meanwhile, an appropriate architecture that can facilitate acquisition of enough information for prediction has to be designed. Existing methods ignore a fact that when input data undergoes layer-by-layer feature extraction and spatial transformation, large amount of information will be lost. This paper will delve into the important issues of data loss when data is transmitted through deep networks, namely information bottleneck and reversible functions. We proposed the concept of programmable gradient information (PGI) to cope with the various changes required by deep networks to achieve multiple objectives. PGI can provide complete input information for the target task to calculate objective function, so that reliable gradient information can be obtained to update network weights. In addition, a new lightweight network architecture -- Generalized Efficient Layer Aggregation Network (GELAN), based on gradient path planning is designed. GELAN's architecture confirms that PGI has gained superior results on lightweight models. We verified the proposed GELAN and PGI on MS COCO dataset based object detection. The results show that GELAN only uses conventional convolution operators to achieve better parameter utilization than the state-of-the-art methods developed based on depth-wise convolution. PGI can be used for variety of models from lightweight to large. It can be used to obtain complete information, so that train-from-scratch models can achieve better results than state-of-the-art models pre-trained using large datasets, the comparison results are shown in Figure 1. The source codes are at: https://github.com/WongKinYiu/yolov9.
研究动机与目标
- 激发并解决深度网络在前馈处理中信息丢失(信息瓶颈)的问题。
- 开发一个框架(PGI),通过辅助可逆分支提供可靠的梯度信息。
- 设计一个轻量、灵活的架构(GELAN),用常规卷积保存信息以提高参数利用率。
- 证明在从头训练设置下,搭载 PGI 和 GELAN 的 YOLOv9 在 MS COCO 上超越现有的实时检测器。
提出的方法
- 提出 Programmable Gradient Information (PGI),包括:(i) 主推断分支,(ii) 提供可靠梯度的辅助可逆分支,以及 (iii) 平衡跨特征金字塔语义引导的多级辅助信息。
- 引入辅助可逆分支,以在不增加推理成本的情况下缓解信息瓶颈。
- 融合多级辅助信息以整合来自不同预测头的梯度,防止深层监督中的信息丢失。
- 将 ELAN 泛化为 GELAN,一种模块化架构,能够使用多种卷积块(CSP、RES、DARK),同时优化参数效率和速度。
- 在基于 CSPNet 的骨干网络中用 GELAN 替换 ELAN 块,形成 YOLOv9 的骨干/颈部,并采用无锚点的预测头。
- 在 MS COCO 上使用从头训练设置进行评估,并与最先进的实时检测器进行比较。
实验结果
研究问题
- RQ1PGI 是否能够为轻量级和大型模型提供可靠梯度以在不增加额外推理成本的情况下改进训练?
- RQ2与基于深度卷积的设计相比,GELAN 是否在保持或提升精度的同时实现更好的参数利用率和速度?
- RQ3辅助可逆分支和多级辅助信息如何影响跨不同模型尺度的信息保留和收敛?
主要发现
- YOLOv9 变体在 MS COCO 上通过从头训练实现强劲的实时目标检测性能:GELAN-S 46.7 AP50:95,GELAN-M 51.1 AP50:95,GELAN-C 52.5 AP50:95,GELAN-E 55.0 AP50:95;YOLOv9-S 46.8,YOLOv9-M 51.4,YOLOv9-C 53.0,YOLOv9-E 55.6 AP50:95。
- YOLOv9-C 与 YOLOv9-E 在 AP50:95 上超过 comparable models,同时使用的参数和计算量少于若干基线(例如,与报告比较中的 YOLOv7 AF 和 YOLOv8-X 相比)。
- GELAN 减少对深度分离卷积的依赖并实现更高的参数效率;GELAN-S、GELAN-M、GELAN-C、GELAN-E 在模型尺度上显示出稳定的增益。
- 消融实验表明,PGI 在不同的 backbone/neck 配置和模型大小下始终提升准确性,辅以辅助可逆分支和多级辅助信息对深层监督相比具有可测量的增益。
- PGI 使从头训练的模型在准确性上达到或超过一些预训练的大模型基线,同时使用的参数更少、FLOPs 更低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。