[论文解读] YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection
YOLO-MS 引入 MS-Block 和异质卷积核选择协议,以增强实时检测的多尺度特征表示,在参数量/FLOPs 低的情况下实现强精度,并可作为其他 YOLO 模型的即插即用模块。
We aim at providing the object detection community with an efficient and performant object detector, termed YOLO-MS. The core design is based on a series of investigations on how multi-branch features of the basic block and convolutions with different kernel sizes affect the detection performance of objects at different scales. The outcome is a new strategy that can significantly enhance multi-scale feature representations of real-time object detectors. To verify the effectiveness of our work, we train our YOLO-MS on the MS COCO dataset from scratch without relying on any other large-scale datasets, like ImageNet or pre-trained weights. Without bells and whistles, our YOLO-MS outperforms the recent state-of-the-art real-time object detectors, including YOLO-v7, RTMDet, and YOLO-v8. Taking the XS version of YOLO-MS as an example, it can achieve an AP score of 42+% on MS COCO, which is about 2% higher than RTMDet with the same model size. Furthermore, our work can also serve as a plug-and-play module for other YOLO models. Typically, our method significantly advances the APs, APl, and AP of YOLOv8-N from 18%+, 52%+, and 37%+ to 20%+, 55%+, and 40%+, respectively, with even fewer parameters and MACs. Code and trained models are publicly available at https://github.com/FishAndWasabi/YOLO-MS. We also provide the Jittor version at https://github.com/NK-JittorCV/nk-yolo.
研究动机与目标
- 为实时检测器推动改进的多尺度特征表示。
- 设计一个编码器,利用局部(MS-Block)和全局(变化的卷积核尺寸)视角来丰富多尺度特征。
- 在从头训练的 COCO 上评估 YOLO-MS,与最先进的实时检测器对比。
- 显示异质卷卷尺寸在保持效率的同时改善跨尺度检测。
提出的方法
- 引入具有分层特征融合策略的 MS-Block,灵感来自 Res2Net,并采用倒置瓶颈以高效实现大核卷积。
- 提出异质卷核选择(HKS)协议,在编码器各阶段分配卷核尺寸 [3,5,7,9],在不损害浅层效率的前提下扩大深层感受野。
- 用倒置瓶颈替代标准的 3x3 卷积,以实现计算成本较低的大卷积。
- 使用四阶段骨干网络,带下采样、一个 SPP 块和 PAFPN 颈部以融合多尺度特征。
- 提供三种 YOLO-MS 变体(XS、S 和完整版),通道数和参数量逐步增多,在 COCO 上从头训练。
实验结果
研究问题
- RQ1在实时设置中,具备 MS-Block 的多尺度编码器是否能改善对小物体、中等和大物体的检测?
- RQ2在编码器各阶段对卷积核进行异质尺寸(HKS)是否比统一的小核在准确性与速度之间取得更好的折衷?
- RQ3MS-Block 的深度、通道扩张比以及注意力机制对性能和推理速度有何影响?
- RQ4YOLO-MS 作为插件模块在其他 YOLO 架构中的泛化效果有多好?
主要发现
- YOLO-MS-XS 具备约 450 万参数和约 8.7 GFLOPs,在 COCO 上 AP 超过 43。
- HKS 使深层阶段的感受野更大,同时与统一的小核相比几乎不牺牲速度。
- 配备合适通道扩张和三分支结构的 MS-Block 相较于非融合变体,AP 提升约 1.2–1.6 点。
- PAFPN-MS 与 MS-Block 的整合在相对一些基线降低参数和 FLOPs 的情况下提升 AP。
- 将 MS-Block 应用于其他 YOLO 模型(如 YOLOv6、YOLOv8)可显著提升 AP,且参数/ FLOPs 更少。
- 该方法在速度-精度权衡上表现强劲,展示了对实时检测的鲁棒多尺度特征学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。