[论文解读] Hyper-YOLO: When Visual Object Detection Meets Hypergraph Computation
Hyper-YOLO 引入超图计算框架(HGC-SCS)到 YOLO 的颈部,形成 HyperC2Net 实现跨等级与跨位置的高阶特征交互,在 COCO AP 上超过最先进的 YOLO 变种。
We introduce Hyper-YOLO, a new object detection method that integrates hypergraph computations to capture the complex high-order correlations among visual features. Traditional YOLO models, while powerful, have limitations in their neck designs that restrict the integration of cross-level features and the exploitation of high-order feature interrelationships. To address these challenges, we propose the Hypergraph Computation Empowered Semantic Collecting and Scattering (HGC-SCS) framework, which transposes visual feature maps into a semantic space and constructs a hypergraph for high-order message propagation. This enables the model to acquire both semantic and structural information, advancing beyond conventional feature-focused learning. Hyper-YOLO incorporates the proposed Mixed Aggregation Network (MANet) in its backbone for enhanced feature extraction and introduces the Hypergraph-Based Cross-Level and Cross-Position Representation Network (HyperC2Net) in its neck. HyperC2Net operates across five scales and breaks free from traditional grid structures, allowing for sophisticated high-order interactions across levels and positions. This synergy of components positions Hyper-YOLO as a state-of-the-art architecture in various scale models, as evidenced by its superior performance on the COCO dataset. Specifically, Hyper-YOLO-N significantly outperforms the advanced YOLOv8-N and YOLOv9-T with 12\% $ ext{AP}^{val}$ and 9\% $ ext{AP}^{val}$ improvements. The source codes are at ttps://github.com/iMoonLab/Hyper-YOLO.
研究动机与目标
- 激发并解决传统 YOLO 颈部设计在跨等级和跨位置特征融合方面的局限性。
- 开发一种框架,使用超图(HGC-SCS)对视觉特征之间的高阶关系建模。
- 设计一个骨干块(MANet)和一个基于超图的颈部(HyperC2Net),以增强多尺度特征融合。
- 在 COCO 上展示 Hyper-YOLO 变体的先进性能,特别是 Hyper-YOLO-N,相对于当代的 YOLO 模型。
提出的方法
- 提出 HGC-SCS:收集骨干特征,构建语义空间超图,执行超图卷积进行高阶学习,并将增强特征散回输入。
- 引入 HyperC2Net 作为基于超图的颈部,能够在五个骨干层之间实现跨等级和跨位置的高阶传播。
- 在骨干中加入混合聚合网络(MANet),以结合 1x1 bypass、深度可分离卷积和 C2f 风格块,获取更丰富的特征。
- 实例化带有 HyperC2Net 颈部和 MANet 骨干的 Hyper-YOLO,在五个尺度上工作,打破网格约束以实现高阶交互。
- 提供面向检测的 HGC-SCS 框架实例(HyperC2Net),并详细描述混合骨干特征的融合。
实验结果
研究问题
- RQ1基于超图的高阶信息传递是否能改善目标检测中的跨等级和跨位置特征表示?
- RQ2在颈部整合 HGC-SCS(HyperC2Net)是否能相对于 PANet 和 Gold-YOLO 等传统颈部,在基于 YOLO 的检测器中带来可衡量的提升?
- RQ3混合聚合网络对骨干特征提取和最终检测精度有何影响?
- RQ4相较于 YOLOv8、YOLOv9 和 Gold-YOLO,Hyper-YOLO 在 COCO 不同尺度上的表现如何?
- RQ5在颈部应用高阶学习时,参数量、FLOPs 与准确率之间的权衡是什么?
主要发现
| Method | Input Size | AP^val | AP^val_50 | #Params. | FLOPs | FPS[bs=1] | FPS[bs=32] | Latency[bs=1] |
|---|---|---|---|---|---|---|---|---|
| Hyper-YOLO-T | 640 | 38.5% | 54.5% | 3.1 M | 9.6 G | 404/692 † | 644/1029 † | 2.5/1.4 † ms |
| Hyper-YOLO-N | 640 | 41.8% | 58.3% | 4.0 M | 11.4 G | 364/554 † | 460/710 † | 2.7/1.8 † ms |
| Hyper-YOLO-S | 640 | 48.0% | 65.1% | 14.8 M | 39.0 G | 212/301 † | 257/343 † | 4.7/3.3 † ms |
| Hyper-YOLO-M | 640 | 52.0% | 69.0% | 33.3 M | 103.3 G | 111/145 † | 132/154 † | 9.0/6.9 † ms |
| Hyper-YOLO-L | 640 | 53.8% | 70.9% | 56.3 M | 211.0 G | 73/97 † | 83/105 † | 13.7/10.3 † ms |
| YOLOv8-N | 640 | 37.3% | 52.6% | 3.2 M | 8.7 G | 713 | 1094 | 1.4 ms |
| YOLOv9-T | 640 | 38.3% | 53.1% | 2.0 M | 7.7 G | 420 | 796 | 2.4 ms |
- Hyper-YOLO 变体在 COCO Val2017 的各尺度上优于竞争的 YOLO 模型,例如 Hyper-YOLO-N 的 APval 高于 YOLOv8-N 和 YOLOv9-T。
- 在 -N 尺度下,Hyper-YOLO 比 YOLOv8-N 的 APval 提升 12%,比 YOLOv9-T 提升 9%,且参数量具有竞争力或更少。
- MANet 相对于 YOLOv8-S 的 C2f 在同一颈部下的骨干性能提升,体现了混合聚合的优势。
- HyperC2Net 通过超图卷积实现跨等级和跨位置的高阶交互,超越如 PANet 和 Gold-YOLO 的聚合-分发颈部等网格受限的融合方法。
- 在各尺度上,Hyper-YOLO 相对于 YOLOv8/YOLOv9 的提升在较小模型尺寸时更大,凸显在特征提取能力受限时高阶学习的价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。