[论文解读] Probabilistic two-stage detection
本论文提出一种对两阶段目标检测的概率解释,并通过使用强的一阶段第一阶段预测目标可能性,构建概率两阶段检测器,在精度和速度上均优于以往的两阶段和一阶段方法。
We develop a probabilistic interpretation of two-stage object detection. We show that this probabilistic interpretation motivates a number of common empirical training practices. It also suggests changes to two-stage detection pipelines. Specifically, the first stage should infer proper object-vs-background likelihoods, which should then inform the overall score of the detector. A standard region proposal network (RPN) cannot infer this likelihood sufficiently well, but many one-stage detectors can. We show how to build a probabilistic two-stage detector from any state-of-the-art one-stage detector. The resulting detectors are faster and more accurate than both their one- and two-stage precursors. Our detector achieves 56.4 mAP on COCO test-dev with single-scale testing, outperforming all published results. Using a lightweight backbone, our detector achieves 49.2 mAP on COCO at 33 fps on a Titan Xp, outperforming the popular YOLOv4 model.
研究动机与目标
- 促进对两阶段目标检测的概率解释,以在各阶段之间统一训练信号。
- 开发通过可处理的下界来联合优化概率目标的训练目标。
- 设计一个第一阶段,提供经校准的目标可能性,同时利用高效的一阶段检测器。
- 将第一阶段的可能性与第二阶段分类器整合,形成一个概率两阶段检测器。
- 在 COCO、LVIS 和 Objects365 上展示该方法,取得最新技术水平的结果并提供实时变体。
提出的方法
- 将每个目标的类别分布分解为 P(O)(目标可能性,第一阶段)和 P(C|O)(条件分类,第二阶段)。
- 使用带下界放松的极大似然训练以联合优化两个阶段(式2、式3、式4)。
- 使用强的一阶段检测器作为第一阶段以预测经过校准的目标可能性(示例:RetinaNet 风格、带 FPN 的 CenterNet、ATSS/GFL 基线)。
- 通过将第一阶段的 P(O) 与第二阶段的 P(C|O) 相乘来组合分数,形成最终检测分数。
- 将 FasterRCNN 与 CascadeRCNN 作为第二阶段进行实验,基于多种骨干网络(ResNet、ResNeXt、BiFPN 等)。
- 调整超参数(IoU 阈值、 proposal 数量、NMS)以适应概率两阶段推理并保持速度优势。
实验结果
研究问题
- RQ1通过使第一阶段预测经过校准的目标可能性,概率解释是否能够统一并改进两阶段检测器的训练?
- RQ2在将传统的 RPN 替换为强的一阶段检测器作为第一阶段时,是否会在形成概率两阶段检测器时同时提高准确性和速度?
- RQ3第一阶段和第二阶段分数的概率耦合如何影响在 COCO、LVIS 和 Objects365 上的最终检测性能?
- RQ4与传统的两阶段检测器相比,概率两阶段检测器中提案数量与精度之间的权衡是多少?
主要发现
- 在 COCO test-dev 的单尺度测试中,概率两阶段检测器的表现超过其一阶段及传统两阶段前身,达到 56.4 mAP。
- 基于 CenterNet2 的配置结合强骨干网络达到 56.4 mAP,超越在 COCO test-dev 上的已发表结果。
- 实时版 CenterNet2 在 Titan Xp 上以 33 fps 达到 49.2 mAP,超越同硬件上的 YOLOv4。
- 使用更少但更高质量的 proposal(256)配合经过校准的第一阶段,比传统基于 RPN 的两阶段检测器的 1K proposal 更快更准。
- 在 LVIS 和 Objects365 上,CenterNet2 比 CascadeRCNN 基线提高 2.7–2.9 mAP,显示对大词汇表数据集的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。