QUICK REVIEW

[论文解读] Dynamic Scale Training for Object Detection

Yukang Chen, Peizhen Zhang|arXiv (Cornell University)|Apr 26, 2020

Advanced Neural Network Applications参考文献 42被引用 24

一句话总结

本文提出动态尺度训练（DST），一种基于反馈的数据增强方法，通过利用小物体的实时损失比例动态调整基于拼贴的训练数据准备，以缓解目标检测中的尺度差异问题。通过利用优化反馈指导数据增强，DST在MS COCO上实现了超过2%的mAP提升，且不增加推理开销，从而实现更快的收敛速度和在不同主干网络与任务上的泛化能力。

ABSTRACT

We propose a Dynamic Scale Training paradigm (abbreviated as DST) to mitigate scale variation challenge in object detection. Previous strategies like image pyramid, multi-scale training, and their variants are aiming at preparing scale-invariant data for model optimization. However, the preparation procedure is unaware of the following optimization process that restricts their capability in handling the scale variation. Instead, in our paradigm, we use feedback information from the optimization process to dynamically guide the data preparation. The proposed method is surprisingly simple yet obtains significant gains (2%+ Average Precision on MS COCO dataset), outperforming previous methods. Experimental results demonstrate the efficacy of our proposed DST method towards scale variation handling. It could also generalize to various backbones, benchmarks, and other challenging downstream tasks like instance segmentation. It does not introduce inference overhead and could serve as a free lunch for general detection configurations. Besides, it also facilitates efficient training due to fast convergence. Code and models are available at github.com/yukang2017/Stitcher.

研究动机与目标

解决目标检测中长期存在的尺度差异挑战，即由于数据分布不平衡，小物体代表性不足且难以检测。
克服静态数据增强与模型优化策略在训练过程中缺乏动态协作的局限性。
开发一种可实时根据优化反馈自适应调整数据准备的训练范式，以提升对少数尺度物体的检测性能。
确保该方法在不同主干网络、数据集和下游任务（如实例分割）中具有普适性，且不引入推理开销。
在保持或提升检测精度的同时，实现更快的收敛速度和更优的速度-精度权衡。

提出的方法

提出一种基于拼贴的动态数据增强策略，通过下采样图像生成小尺度物体实例，提升小尺度物体模式的多样性。
利用小物体的损失比例作为反馈信号，以决定在训练过程中何时以及以何种频率应用拼贴增强。
采用基于阈值的决策规则：若小物体的损失比例超过学习得到的阈值τ=0.1，则激活拼贴增强，以纠正优化偏差。
根据实时性能指标动态控制拼贴使用的频率，确保数据准备的自适应与响应性。
固定每张拼贴使用四个组件图像（k=4），在多样性与计算成本之间实现平衡。
将该方法无缝集成到标准检测器（如Faster R-CNN）中，使用ResNet-50和FPN，无需修改模型架构或推理流程。

实验结果

研究问题

RQ1与静态多尺度训练相比，基于反馈的动态数据增强是否能提升小尺度物体的检测性能？
RQ2将优化反馈整合到数据准备中，是否能实现更快的收敛速度，并在不同主干网络与数据集中实现更好的泛化能力？
RQ3所提出的方法是否能在不修改模型架构或增加推理成本的前提下，提升实例分割性能？
RQ4基于损失统计动态调整数据增强，如何影响各尺度优化的平衡性？
RQ5激活动态增强的最优阈值τ是多少？其对训练稳定性和性能有何影响？

主要发现

与基线Faster R-CNN（ResNet-50 + FPN）相比，DST在MS COCO上实现了2.0%以上的mAP提升，小物体检测性能显著增强（APs从21.1提升至24.4）。
该方法实现了更快的收敛速度，在50k次迭代内即可达到基线在90k次迭代时的mAP水平，训练时间减少近一半。
在更小的输入分辨率（512, 853）下，DST保持37.0 mAP的性能，且推理速度比基线（800, 1333）快1.6倍，展现出更优的速度-精度权衡。
该方法在不同主干网络和任务中具有良好的泛化能力，在不修改架构的前提下提升了实例分割性能。
从拼贴组件中移除极小物体（面积<100像素）对性能影响极小（AP：38.6，前后一致），表明对噪声具有鲁棒性。
损失比例分析表明，DST能有效平衡各尺度的优化过程，显著降低小物体训练迭代中损失极低的占比（从>50%降至接近零）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。