QUICK REVIEW

[论文解读] Simple Training Strategies and Model Scaling for Object Detection

Xianzhi Du, Barret Zoph|arXiv (Cornell University)|Jun 30, 2021

Advanced Neural Network Applications参考文献 33被引用 27

一句话总结

论文系统地对目标检测的架构与训练/推理技术进行消融，提出对 RetinaNet-RS 和 Cascade RCNN-RS 的简单缩放，并在 ResNet/Backbone 主干与 SpineNet 主干上演示了在速度-精度上的强大帕累托改进。

ABSTRACT

The speed-accuracy Pareto curve of object detection systems have advanced through a combination of better model architectures, training and inference methods. In this paper, we methodically evaluate a variety of these techniques to understand where most of the improvements in modern detection systems come from. We benchmark these improvements on the vanilla ResNet-FPN backbone with RetinaNet and RCNN detectors. The vanilla detectors are improved by 7.7% in accuracy while being 30% faster in speed. We further provide simple scaling strategies to generate family of models that form two Pareto curves, named RetinaNet-RS and Cascade RCNN-RS. These simple rescaled detectors explore the speed-accuracy trade-off between the one-stage RetinaNet detectors and two-stage RCNN detectors. Our largest Cascade RCNN-RS models achieve 52.9% AP with a ResNet152-FPN backbone and 53.6% with a SpineNet143L backbone. Finally, we show the ResNet architecture, with three minor architectural changes, outperforms EfficientNet as the backbone for object detection and instance segmentation systems.

研究动机与目标

识别哪些架构改动和训练/推理方法对检测性能提升贡献最大。
评估更强的数据增强、正则化、训练时长和精度对速度与准确性的影响。
提出简单的缩放策略，通过权衡骨干深度与输入分辨率生成 Pareto 效率的模型家族（RetinaNet-RS 与 RCNN-RS）。
在新的基线下比较一阶段 RetinaNet 和两阶段 RCNN 检测器在 COCO 与 Waymo Open 数据集上的表现。

提出的方法

消融常见的架构修改（Squeeze-and-Excitation、激活函数、模型干段）以及训练/推理技术（数据增广、正则化、训练计划、float16 基准测试）。
通过在 ResNet 骨干中加入 SE 模块、ResNet-D 干段和 SiLU 激活来评估增量收益。
通过改变输入分辨率和骨干深度引入简单缩放，形成 RetinaNet-RS 与 RCNN-RS 模型家族。
在 COCO 上使用 RetinaNet-RS 与 Cascade RCNN-RS 评估检测器，在 Waymo Open 数据集上使用 SpineNet 主干进行评估。
在不同骨干和分辨率下对延迟（float16/float32）和精度（AP、APs、APm、APl）进行基准测试。

实验结果

研究问题

RQ1哪些架构调整与训练/推理方法的组合在最低延迟成本下带来最大的准确性提升？
RQ2简单缩放策略（提高输入分辨率与骨干深度）在一阶段与两阶段检测器的速度-精度帕累托曲线上有何影响？
RQ3所提的 RetinaNet-RS 与 Cascade RCNN-RS 模型家族是否能在 COCO 与 Waymo Open 数据集域之间泛化？
RQ4使用 float16 精度与后处理对整体端到端延迟的影响是什么？
RQ5在大输入分辨率下，骨干选择（ResNet 变体、SpineNet）在效率方面有何差异？

主要发现

将现代训练方法与架构变更结合起来，在 COCO（ResNet-50 FPN，640 输入）上比原生 RetinaNet 提升了 7.7% 的 AP，同時推理速度提升约 30%。
RetinaNet-RS 与 Cascade RCNN-RS 通过对输入分辨率和骨干深度的缩放形成两条 Pareto 曲线，在不同尺度下实现了强劲的准确性与速度。
Cascade RCNN-RS 采用 ResNet152-FPN，在 COCO 上实现 52.9% AP，图片处理时间为 119 ms（在 V100 上）；SpineNet143L 主干在 COCO 上达到 53.6% AP，在 Waymo Open 上达到 71.2 AP/L1。
在这些设置下，简单的 ResNet 骨干配合简单的架构变动即可超越 EfficientNet 作为检测与实例分割骨干的表现。
使用 float16 推理可带来 1.5× 到 1.7× 的加速，而后处理（NMS）则可能主导延迟，取决于检测器，提示优化机会。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。