Skip to main content
QUICK REVIEW

[论文解读] YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection

Yumin Chen, Xinbin Yuan|arXiv (Cornell University)|Aug 10, 2023
Advanced Neural Network Applications被引用 23
一句话总结

YOLO-MS 引入 MS-Block 和异质卷积核选择协议,以增强实时检测的多尺度特征表示,在参数量/FLOPs 低的情况下实现强精度,并可作为其他 YOLO 模型的即插即用模块。

ABSTRACT

We aim at providing the object detection community with an efficient and performant object detector, termed YOLO-MS. The core design is based on a series of investigations on how multi-branch features of the basic block and convolutions with different kernel sizes affect the detection performance of objects at different scales. The outcome is a new strategy that can significantly enhance multi-scale feature representations of real-time object detectors. To verify the effectiveness of our work, we train our YOLO-MS on the MS COCO dataset from scratch without relying on any other large-scale datasets, like ImageNet or pre-trained weights. Without bells and whistles, our YOLO-MS outperforms the recent state-of-the-art real-time object detectors, including YOLO-v7, RTMDet, and YOLO-v8. Taking the XS version of YOLO-MS as an example, it can achieve an AP score of 42+% on MS COCO, which is about 2% higher than RTMDet with the same model size. Furthermore, our work can also serve as a plug-and-play module for other YOLO models. Typically, our method significantly advances the APs, APl, and AP of YOLOv8-N from 18%+, 52%+, and 37%+ to 20%+, 55%+, and 40%+, respectively, with even fewer parameters and MACs. Code and trained models are publicly available at https://github.com/FishAndWasabi/YOLO-MS. We also provide the Jittor version at https://github.com/NK-JittorCV/nk-yolo.

研究动机与目标

  • 为实时检测器推动改进的多尺度特征表示。
  • 设计一个编码器,利用局部(MS-Block)和全局(变化的卷积核尺寸)视角来丰富多尺度特征。
  • 在从头训练的 COCO 上评估 YOLO-MS,与最先进的实时检测器对比。
  • 显示异质卷卷尺寸在保持效率的同时改善跨尺度检测。

提出的方法

  • 引入具有分层特征融合策略的 MS-Block,灵感来自 Res2Net,并采用倒置瓶颈以高效实现大核卷积。
  • 提出异质卷核选择(HKS)协议,在编码器各阶段分配卷核尺寸 [3,5,7,9],在不损害浅层效率的前提下扩大深层感受野。
  • 用倒置瓶颈替代标准的 3x3 卷积,以实现计算成本较低的大卷积。
  • 使用四阶段骨干网络,带下采样、一个 SPP 块和 PAFPN 颈部以融合多尺度特征。
  • 提供三种 YOLO-MS 变体(XS、S 和完整版),通道数和参数量逐步增多,在 COCO 上从头训练。

实验结果

研究问题

  • RQ1在实时设置中,具备 MS-Block 的多尺度编码器是否能改善对小物体、中等和大物体的检测?
  • RQ2在编码器各阶段对卷积核进行异质尺寸(HKS)是否比统一的小核在准确性与速度之间取得更好的折衷?
  • RQ3MS-Block 的深度、通道扩张比以及注意力机制对性能和推理速度有何影响?
  • RQ4YOLO-MS 作为插件模块在其他 YOLO 架构中的泛化效果有多好?

主要发现

  • YOLO-MS-XS 具备约 450 万参数和约 8.7 GFLOPs,在 COCO 上 AP 超过 43。
  • HKS 使深层阶段的感受野更大,同时与统一的小核相比几乎不牺牲速度。
  • 配备合适通道扩张和三分支结构的 MS-Block 相较于非融合变体,AP 提升约 1.2–1.6 点。
  • PAFPN-MS 与 MS-Block 的整合在相对一些基线降低参数和 FLOPs 的情况下提升 AP。
  • 将 MS-Block 应用于其他 YOLO 模型(如 YOLOv6、YOLOv8)可显著提升 AP,且参数/ FLOPs 更少。
  • 该方法在速度-精度权衡上表现强劲,展示了对实时检测的鲁棒多尺度特征学习。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。