Skip to main content
QUICK REVIEW

[论文解读] YOLOX: Exceeding YOLO Series in 2021

Zheng Ge, Songtao Liu|arXiv (Cornell University)|Jul 18, 2021
Advanced Neural Network Applications参考文献 35被引用 3,007
一句话总结

YOLOX 引入了一个无锚框检测器,带解耦头和 SimOTA 动态标签分配,在不同模型尺寸下达到 COCO AP 的 state-of-the-art,并超越早期 YOLO 变体如 YOLOv3 和 YOLOv5-L,同时提供部署选项。

ABSTRACT

In this report, we present some experienced improvements to YOLO series, forming a new high-performance detector -- YOLOX. We switch the YOLO detector to an anchor-free manner and conduct other advanced detection techniques, i.e., a decoupled head and the leading label assignment strategy SimOTA to achieve state-of-the-art results across a large scale range of models: For YOLO-Nano with only 0.91M parameters and 1.08G FLOPs, we get 25.3% AP on COCO, surpassing NanoDet by 1.8% AP; for YOLOv3, one of the most widely used detectors in industry, we boost it to 47.3% AP on COCO, outperforming the current best practice by 3.0% AP; for YOLOX-L with roughly the same amount of parameters as YOLOv4-CSP, YOLOv5-L, we achieve 50.0% AP on COCO at a speed of 68.9 FPS on Tesla V100, exceeding YOLOv5-L by 1.8% AP. Further, we won the 1st Place on Streaming Perception Challenge (Workshop on Autonomous Driving at CVPR 2021) using a single YOLOX-L model. We hope this report can provide useful experience for developers and researchers in practical scenes, and we also provide deploy versions with ONNX, TensorRT, NCNN, and Openvino supported. Source code is at https://github.com/Megvii-BaseDetection/YOLOX.

研究动机与目标

  • 推动对 YOLO 系列的改进,以在实时应用中实现速度和准确度之间的平衡。
  • 集成无锚框检测、解耦头设计和高级标签分配,在不同模型规模上提升 COCO 的性能。
  • 展示与同代探测器相比的强劲结果,并提供可直接部署的实现。

提出的方法

  • 以 YOLOv3 基线(YOLOv3-SPP)为起点,应用训练技巧(EMA、余弦学习率、IoU 损失、IoU 感知分支)。
  • 用轻量解耦头替换原有头部,以分离分类和回归路径。
  • 引入强数据增强(Mosaic、MixUp),并停用 RandomResizedCrop 以配合 mosaic。
  • 从基于锚框的检测切换到无锚框检测,以减少预测并提升速度与准确性。
  • 采用中心采样(目标中心周围 3x3 的正样本)进行正样本分配。
  • 采用 SimOTA,一种简化的受 OT 启发的动态 top-k 标签分配,以在降低训练开销的同时改善正样本匹配。
  • 可选地启用端到端(NMS)变体,作为一个额外模块,而非核心依赖。

实验结果

研究问题

  • RQ1无锚框检测配合解耦头是否能提升 YOLO 系列检测器在 COCO 上的 AP?
  • RQ2强数据增强(Mosaic、MixUp)对不同模型尺寸的 YOLOX 性能有何影响?
  • RQ3在准确性和训练效率方面,SimOTA 标签分配与之前的策略相比如何?
  • RQ4Can VOLOX 模型在 COCO 上超越现有基于 YOLO 的检测器(如 YOLOv3-ultralytics、YOLOv5-L)?
  • RQ5在该框架中端到端训练与基于标准 NMS 的推理之间存在哪些权衡?

主要发现

  • YOLOX-DarkNet53(640x640)在 COCO 上通过 SimOTA 达到 47.3% 的 AP,较先前的 YOLOv3 提升 3.0% AP。
  • 采用解耦头后,AP 从 38.5% 提升到 39.6%,在 YOLOv3 基线上的表现。
  • 应用强增强(Mosaic + MixUp)使 AP 提升至 42.0%。
  • 切换到无锚框检测可减少预测,并在中心正样本为 3x3 时,AP 达到 45.0%。
  • SimOTA 标签分配将 AP 提升至 47.3%,领先 ultralytics-YOLOv3 3.0% AP。
  • 端到端(NMS)变体是可选的,可能相较于标准设置降低速度/性能。
  • YOLOX-L(640x640)在 Tesla V100 上以 68.9 FPS 实现 50.0% AP,较 YOLOv5-L 提升 1.8% AP。
  • YOLOX-Nano(0.91M 参数,1.08 GFLOPs)实现 25.3% AP,较 NanoDet 提升 1.8% AP。
  • 在不同主干比较(包括如 YOLOv5 中修改的 CSPNet),YOLOX 变体在 AP 上普遍比对应的 YOLOv5 版本提升约 1-3 个点,且潜在延迟变化很小。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。