[论文解读] Bag of Freebies for Training Object Detection Neural Networks
该论文研究训练时的免费技巧对目标检测在不影响推理的情况下的提升,在 VOC/COCO 上通过堆叠视觉上连贯的 mixup、标签平滑、余弦学习率、同步 BN 和随机形状等技巧,实现最高可达到绝对 mAP 提升5%,覆盖 YOLOv3 和 Faster R-CNN。
Training heuristics greatly improve various image classification model accuracies~\cite{he2018bag}. Object detection models, however, have more complex neural network structures and optimization targets. The training strategies and pipelines dramatically vary among different models. In this works, we explore training tweaks that apply to various models including Faster R-CNN and YOLOv3. These tweaks do not change the model architectures, therefore, the inference costs remain the same. Our empirical results demonstrate that, however, these freebies can improve up to 5% absolute precision compared to state-of-the-art baselines.
研究动机与目标
- 识别在不增加推理成本的前提下,能够在不同架构上提升目标检测性能的通用训练技巧。
- 量化每种训练调整对 YOLOv3 和 Faster R-CNN 在 Pascal VOC 和 MS COCO 上的影响。
- 为将这些技巧应用于单阶段和多阶段检测器制定一套连贯的指南。
提出的方法
- 提出一种面向目标检测、能保持空间对齐的视觉连贯 mixup 变体。
- 评估包括学习率调度、标签平滑、同步 BatchNorm 以及数据预处理在内的训练时改进。
- 逐步堆叠这些改进,以评估在单阶段和多阶段检测器上的叠加收益。
- 在 Pascal VOC 和 COCO 上使用固定输入尺度和标准 NMS 的 YOLOv3 与 Faster-RCNN 进行基准测试。
实验结果
研究问题
- RQ1训练时的免费技巧是否能够在不同的目标检测流水线(单阶段 vs. 多阶段)上泛化?
- RQ2mixup、标签平滑、余弦 LR 调度、同步 BN 等改动对 mAP 的单独和累积影响是多少?
- RQ3在不改变网络架构的情况下,这些训练技巧能否缩小与最先进基线之间的差距?
- RQ4这些增益在数据集(Pascal VOC 和 COCO)和输入分辨率上是否具有一致性?
主要发现
- 在不改变架构的情况下,相对于基线,绝对 mAP 最高提升可达 5%。
- 为目标检测定制的 Mixup 产生可测量的增益(例如在 VOC 上与其他技巧叠加时累计提升 3.43%)。
- 仅数据增强就为单阶段检测器带来了一大部分增益(COCO 结果约 16%)。
- 同步 BatchNorm、随机训练形状、余弦 LR 调度、类别标签平滑和 mixup 的组合在 YOLOv3 和 Faster-RCNN 上产生了一致的改进。
- 在 COCO 上,BoF 将 YOLOv3 的绝对 mAP 提升至多达 5.4%,输入分辨率为 320–608,且将 Faster-RCNN 的总提升约为 1–2%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。