Skip to main content
QUICK REVIEW

[论文解读] YOLOv3: An Incremental Improvement

Joseph Redmon, Ali Farhadi|arXiv (Cornell University)|Apr 8, 2018
Advanced Image and Video Retrieval Techniques参考文献 11被引用 5,881
一句话总结

YOLOv3 引入了小的设计更新和更大、功能更强的骨干网络(Darknet-53),以实现更快的检测速度并在准确率方面具有竞争力,特别是在 AP50 上,同时保持速度。

ABSTRACT

We present some updates to YOLO! We made a bunch of little design changes to make it better. We also trained this new network that's pretty swell. It's a little bigger than last time but more accurate. It's still fast though, don't worry. At 320x320 YOLOv3 runs in 22 ms at 28.2 mAP, as accurate as SSD but three times faster. When we look at the old .5 IOU mAP detection metric YOLOv3 is quite good. It achieves 57.9 mAP@50 in 51 ms on a Titan X, compared to 57.5 mAP@50 in 198 ms by RetinaNet, similar performance but 3.8x faster. As always, all the code is online at https://pjreddie.com/yolo/

研究动机与目标

  • 总结对 YOLO 的增量更新,带来更高的准确性和速度。
  • 描述新的骨干网络(Darknet-53)和多尺度预测策略。
  • 在 AP50 和类似 mAP 的指标下,将 YOLOv3 的性能与 RetinaNet 和 SSD 进行比较。
  • 解释未能提升性能的实验中学到的经验教训。
  • 讨论检测指标和实际部署的影响。

提出的方法

  • 使用锚框和从聚类得到的偏移量来预测边界框及其 4 个坐标。
  • 使用对象性得分与逻辑回归,以及对每个真实对象分配的单一先验。
  • 使用独立的多标签逻辑回归分类器进行类别预测。
  • 使用类似特征金字塔的上采样和拼接,在三个尺度上进行预测。
  • 引入带残差连接的 Darknet-53 作为骨干网络。
  • 在 Darknet 框架中进行多尺度训练和标准数据增强的训练。

实验结果

研究问题

  • RQ1相比早期版本和其他检测器,增量设计变更如何影响 YOLO 的速度-精度权衡?
  • RQ2新的骨干网络(Darknet-53)对检测性能和计算效率有何影响?
  • RQ3多尺度预测是否改善小物体检测和总体 COCO 指标?
  • RQ4替代训练选项(如焦点损失、不同的锚框偏移)如何影响 YOLOv3 的性能?
  • RQ5AP50 与 COCO 均值 AP 指标在评估像 YOLOv3 这样的检测器时有哪些局限?

主要发现

  • YOLOv3 在 320×320 输入下以 22 ms 运行,达到 28.2 mAP,在 AP50 下与 SSD 相当,而比 RetinaNet 快数倍。
  • 在 608×608 输入下,YOLOv3 在 COCO 上达到 33.0 AP、57.9 AP50、34.4 AP75、18.3 AP S、35.4 AP M、41.9 AP L,且比 RetinaNet 更快,同时保持具有竞争力的准确性。
  • Darknet-53 骨干在精度上与最先进的分类器相匹配,同时 FLOPs 更少、FPS 更高于同类 ResNet。
  • YOLOv3 提供强劲的 AP50 性能与速度权衡,尽管 COCO 风格的 AP(0.5:0.95 的 AP)可能落后于一些单阶段检测器。
  • 本研究中锚框和 x,y 偏移预测,以及焦点损失的实验未能提升 mAP。
  • 多尺度预测有助于提升小物体检测(AP S),同时保持整体速度优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。