[论文解读] Simple Training Strategies and Model Scaling for Object Detection
论文系统地对目标检测的架构与训练/推理技术进行消融,提出对 RetinaNet-RS 和 Cascade RCNN-RS 的简单缩放,并在 ResNet/Backbone 主干与 SpineNet 主干上演示了在速度-精度上的强大帕累托改进。
The speed-accuracy Pareto curve of object detection systems have advanced through a combination of better model architectures, training and inference methods. In this paper, we methodically evaluate a variety of these techniques to understand where most of the improvements in modern detection systems come from. We benchmark these improvements on the vanilla ResNet-FPN backbone with RetinaNet and RCNN detectors. The vanilla detectors are improved by 7.7% in accuracy while being 30% faster in speed. We further provide simple scaling strategies to generate family of models that form two Pareto curves, named RetinaNet-RS and Cascade RCNN-RS. These simple rescaled detectors explore the speed-accuracy trade-off between the one-stage RetinaNet detectors and two-stage RCNN detectors. Our largest Cascade RCNN-RS models achieve 52.9% AP with a ResNet152-FPN backbone and 53.6% with a SpineNet143L backbone. Finally, we show the ResNet architecture, with three minor architectural changes, outperforms EfficientNet as the backbone for object detection and instance segmentation systems.
研究动机与目标
- 识别哪些架构改动和训练/推理方法对检测性能提升贡献最大。
- 评估更强的数据增强、正则化、训练时长和精度对速度与准确性的影响。
- 提出简单的缩放策略,通过权衡骨干深度与输入分辨率生成 Pareto 效率的模型家族(RetinaNet-RS 与 RCNN-RS)。
- 在新的基线下比较一阶段 RetinaNet 和两阶段 RCNN 检测器在 COCO 与 Waymo Open 数据集上的表现。
提出的方法
- 消融常见的架构修改(Squeeze-and-Excitation、激活函数、模型干段)以及训练/推理技术(数据增广、正则化、训练计划、float16 基准测试)。
- 通过在 ResNet 骨干中加入 SE 模块、ResNet-D 干段和 SiLU 激活来评估增量收益。
- 通过改变输入分辨率和骨干深度引入简单缩放,形成 RetinaNet-RS 与 RCNN-RS 模型家族。
- 在 COCO 上使用 RetinaNet-RS 与 Cascade RCNN-RS 评估检测器,在 Waymo Open 数据集上使用 SpineNet 主干进行评估。
- 在不同骨干和分辨率下对延迟(float16/float32)和精度(AP、APs、APm、APl)进行基准测试。
实验结果
研究问题
- RQ1哪些架构调整与训练/推理方法的组合在最低延迟成本下带来最大的准确性提升?
- RQ2简单缩放策略(提高输入分辨率与骨干深度)在一阶段与两阶段检测器的速度-精度帕累托曲线上有何影响?
- RQ3所提的 RetinaNet-RS 与 Cascade RCNN-RS 模型家族是否能在 COCO 与 Waymo Open 数据集域之间泛化?
- RQ4使用 float16 精度与后处理对整体端到端延迟的影响是什么?
- RQ5在大输入分辨率下,骨干选择(ResNet 变体、SpineNet)在效率方面有何差异?
主要发现
- 将现代训练方法与架构变更结合起来,在 COCO(ResNet-50 FPN,640 输入)上比原生 RetinaNet 提升了 7.7% 的 AP,同時推理速度提升约 30%。
- RetinaNet-RS 与 Cascade RCNN-RS 通过对输入分辨率和骨干深度的缩放形成两条 Pareto 曲线,在不同尺度下实现了强劲的准确性与速度。
- Cascade RCNN-RS 采用 ResNet152-FPN,在 COCO 上实现 52.9% AP,图片处理时间为 119 ms(在 V100 上);SpineNet143L 主干在 COCO 上达到 53.6% AP,在 Waymo Open 上达到 71.2 AP/L1。
- 在这些设置下,简单的 ResNet 骨干配合简单的架构变动即可超越 EfficientNet 作为检测与实例分割骨干的表现。
- 使用 float16 推理可带来 1.5× 到 1.7× 的加速,而后处理(NMS)则可能主导延迟,取决于检测器,提示优化机会。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。