Skip to main content
QUICK REVIEW

[论文解读] Simple Training Strategies and Model Scaling for Object Detection

Xianzhi Du, Barret Zoph|arXiv (Cornell University)|Jun 30, 2021
Advanced Neural Network Applications参考文献 33被引用 27
一句话总结

论文系统地对目标检测的架构与训练/推理技术进行消融,提出对 RetinaNet-RS 和 Cascade RCNN-RS 的简单缩放,并在 ResNet/Backbone 主干与 SpineNet 主干上演示了在速度-精度上的强大帕累托改进。

ABSTRACT

The speed-accuracy Pareto curve of object detection systems have advanced through a combination of better model architectures, training and inference methods. In this paper, we methodically evaluate a variety of these techniques to understand where most of the improvements in modern detection systems come from. We benchmark these improvements on the vanilla ResNet-FPN backbone with RetinaNet and RCNN detectors. The vanilla detectors are improved by 7.7% in accuracy while being 30% faster in speed. We further provide simple scaling strategies to generate family of models that form two Pareto curves, named RetinaNet-RS and Cascade RCNN-RS. These simple rescaled detectors explore the speed-accuracy trade-off between the one-stage RetinaNet detectors and two-stage RCNN detectors. Our largest Cascade RCNN-RS models achieve 52.9% AP with a ResNet152-FPN backbone and 53.6% with a SpineNet143L backbone. Finally, we show the ResNet architecture, with three minor architectural changes, outperforms EfficientNet as the backbone for object detection and instance segmentation systems.

研究动机与目标

  • 识别哪些架构改动和训练/推理方法对检测性能提升贡献最大。
  • 评估更强的数据增强、正则化、训练时长和精度对速度与准确性的影响。
  • 提出简单的缩放策略,通过权衡骨干深度与输入分辨率生成 Pareto 效率的模型家族(RetinaNet-RS 与 RCNN-RS)。
  • 在新的基线下比较一阶段 RetinaNet 和两阶段 RCNN 检测器在 COCO 与 Waymo Open 数据集上的表现。

提出的方法

  • 消融常见的架构修改(Squeeze-and-Excitation、激活函数、模型干段)以及训练/推理技术(数据增广、正则化、训练计划、float16 基准测试)。
  • 通过在 ResNet 骨干中加入 SE 模块、ResNet-D 干段和 SiLU 激活来评估增量收益。
  • 通过改变输入分辨率和骨干深度引入简单缩放,形成 RetinaNet-RS 与 RCNN-RS 模型家族。
  • 在 COCO 上使用 RetinaNet-RS 与 Cascade RCNN-RS 评估检测器,在 Waymo Open 数据集上使用 SpineNet 主干进行评估。
  • 在不同骨干和分辨率下对延迟(float16/float32)和精度(AP、APs、APm、APl)进行基准测试。

实验结果

研究问题

  • RQ1哪些架构调整与训练/推理方法的组合在最低延迟成本下带来最大的准确性提升?
  • RQ2简单缩放策略(提高输入分辨率与骨干深度)在一阶段与两阶段检测器的速度-精度帕累托曲线上有何影响?
  • RQ3所提的 RetinaNet-RS 与 Cascade RCNN-RS 模型家族是否能在 COCO 与 Waymo Open 数据集域之间泛化?
  • RQ4使用 float16 精度与后处理对整体端到端延迟的影响是什么?
  • RQ5在大输入分辨率下,骨干选择(ResNet 变体、SpineNet)在效率方面有何差异?

主要发现

  • 将现代训练方法与架构变更结合起来,在 COCO(ResNet-50 FPN,640 输入)上比原生 RetinaNet 提升了 7.7% 的 AP,同時推理速度提升约 30%。
  • RetinaNet-RS 与 Cascade RCNN-RS 通过对输入分辨率和骨干深度的缩放形成两条 Pareto 曲线,在不同尺度下实现了强劲的准确性与速度。
  • Cascade RCNN-RS 采用 ResNet152-FPN,在 COCO 上实现 52.9% AP,图片处理时间为 119 ms(在 V100 上);SpineNet143L 主干在 COCO 上达到 53.6% AP,在 Waymo Open 上达到 71.2 AP/L1。
  • 在这些设置下,简单的 ResNet 骨干配合简单的架构变动即可超越 EfficientNet 作为检测与实例分割骨干的表现。
  • 使用 float16 推理可带来 1.5× 到 1.7× 的加速,而后处理(NMS)则可能主导延迟,取决于检测器,提示优化机会。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。