QUICK REVIEW

[论文解读] Dynamic R-CNN: Towards High Quality Object Detection via Dynamic Training

Hongkai Zhang, Hong Chang|arXiv (Cornell University)|Apr 13, 2020

Advanced Neural Network Applications参考文献 50被引用 29

一句话总结

Dynamic R-CNN 提出了一种动态训练策略，通过在训练过程中自适应地调整标签分配阈值和 SmoothL1 损失参数，以更好地利用两阶段目标检测器中不断演化的建议框质量。通过根据建议框统计信息动态调整正样本分配的 IoU 阈值以及 SmoothL1 损失中的 β 参数，该方法在 MS COCO 上实现了 1.9% 的 AP 提升和 5.5% 的 AP₉₀ 提升，且不增加任何推理开销。

ABSTRACT

Although two-stage object detectors have continuously advanced the state-of-the-art performance in recent years, the training process itself is far from crystal. In this work, we first point out the inconsistency problem between the fixed network settings and the dynamic training procedure, which greatly affects the performance. For example, the fixed label assignment strategy and regression loss function cannot fit the distribution change of proposals and thus are harmful to training high quality detectors. Consequently, we propose Dynamic R-CNN to adjust the label assignment criteria (IoU threshold) and the shape of regression loss function (parameters of SmoothL1 Loss) automatically based on the statistics of proposals during training. This dynamic design makes better use of the training samples and pushes the detector to fit more high quality samples. Specifically, our method improves upon ResNet-50-FPN baseline with 1.9% AP and 5.5% AP$_{90}$ on the MS COCO dataset with no extra overhead. Codes and models are available at https://github.com/hkzhang95/DynamicRCNN.

研究动机与目标

解决固定训练设置与目标检测器训练过程中建议框质量动态演变之间的不一致性。
克服固定 IoU 阈值和静态回归损失函数带来的局限性，从而阻碍高质量检测。
通过根据提议框分布随时间的变化调整训练标准，提升检测器性能。
在不引入推理开销的前提下，实现不同主干网络和检测框架的一致性性能提升。

提出的方法

动态标签分配根据当前建议框分布，自适应调整正/负样本分配的 IoU 阈值，使用特定百分位数的 IoU 值作为阈值。
动态 SmoothL1 损失根据回归标签的分布，动态调整 SmoothL1 损失函数中的 β 参数，以更好地拟合小误差梯度。
该方法利用建议框和回归目标的运行统计信息，每轮训练更新阈值和 β 参数。
动态组件被无缝集成到标准 Faster R-CNN 流程中，无需修改网络架构或增加额外参数。
该方法同时应用于分类分支和回归分支，实现检测器质量的协同提升。
该方法兼容多种主干网络和检测头结构，包括 Mask R-CNN 和 Cascade R-CNN。

实验结果

研究问题

RQ1当建议框质量在训练过程中动态演变时，固定的 IoU 阈值对标签分配的影响如何？
RQ2在训练过程中动态调整回归损失函数的形状，能否提升对高质量建议框的学习效果？
RQ3动态训练在不增加推理成本的前提下，能在多大程度上提升 AP 和 AP₉₀？
RQ4该动态训练策略是否能在不同主干网络和检测框架中实现良好泛化？

主要发现

Dynamic R-CNN 在 MS COCO 上将 ResNet-50-FPN 基线模型的 AP 提升 1.9%，AP₉₀ 提升 5.5%，且训练和推理阶段均无额外计算开销。
在使用 ResNet-101-FPN 时，该方法在 COCO test-dev 上达到 42.0% 的 AP；结合多尺度训练和可变形卷积等技术后，AP 提升至 50.1%。
性能增益在不同主干网络（包括 ResNet-18、ResNet-50 和 ResNet-101）上均保持一致，且在目标检测和实例分割任务中均表现优异。
Dynamic R-CNN 在 COCO test-dev 集上优于当前最先进检测器，如 Cascade R-CNN、TridentNet 和 DCNv2。
该方法在 Mask R-CNN 上也表现出良好泛化能力，显著提升了所有测试主干配置下的框 AP 和分割 AP。
由于避免了多个检测头的设计，Dynamic R-CNN 的推理速度比 Cascade Mask R-CNN 快 1.5 倍，使用更小的 ResNet-18 主干时速度提升达 1.74 倍。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。