QUICK REVIEW

[论文解读] Probabilistic two-stage detection

Xingyi Zhou, Vladlen Koltun|arXiv (Cornell University)|Mar 12, 2021

Advanced Neural Network Applications参考文献 59被引用 161

一句话总结

本论文提出一种对两阶段目标检测的概率解释，并通过使用强的一阶段第一阶段预测目标可能性，构建概率两阶段检测器，在精度和速度上均优于以往的两阶段和一阶段方法。

ABSTRACT

We develop a probabilistic interpretation of two-stage object detection. We show that this probabilistic interpretation motivates a number of common empirical training practices. It also suggests changes to two-stage detection pipelines. Specifically, the first stage should infer proper object-vs-background likelihoods, which should then inform the overall score of the detector. A standard region proposal network (RPN) cannot infer this likelihood sufficiently well, but many one-stage detectors can. We show how to build a probabilistic two-stage detector from any state-of-the-art one-stage detector. The resulting detectors are faster and more accurate than both their one- and two-stage precursors. Our detector achieves 56.4 mAP on COCO test-dev with single-scale testing, outperforming all published results. Using a lightweight backbone, our detector achieves 49.2 mAP on COCO at 33 fps on a Titan Xp, outperforming the popular YOLOv4 model.

研究动机与目标

促进对两阶段目标检测的概率解释，以在各阶段之间统一训练信号。
开发通过可处理的下界来联合优化概率目标的训练目标。
设计一个第一阶段，提供经校准的目标可能性，同时利用高效的一阶段检测器。
将第一阶段的可能性与第二阶段分类器整合，形成一个概率两阶段检测器。
在 COCO、LVIS 和 Objects365 上展示该方法，取得最新技术水平的结果并提供实时变体。

提出的方法

将每个目标的类别分布分解为 P(O)（目标可能性，第一阶段）和 P(C|O)（条件分类，第二阶段）。
使用带下界放松的极大似然训练以联合优化两个阶段（式2、式3、式4）。
使用强的一阶段检测器作为第一阶段以预测经过校准的目标可能性（示例：RetinaNet 风格、带 FPN 的 CenterNet、ATSS/GFL 基线）。
通过将第一阶段的 P(O) 与第二阶段的 P(C|O) 相乘来组合分数，形成最终检测分数。
将 FasterRCNN 与 CascadeRCNN 作为第二阶段进行实验，基于多种骨干网络（ResNet、ResNeXt、BiFPN 等）。
调整超参数（IoU 阈值、 proposal 数量、NMS）以适应概率两阶段推理并保持速度优势。

实验结果

研究问题

RQ1通过使第一阶段预测经过校准的目标可能性，概率解释是否能够统一并改进两阶段检测器的训练？
RQ2在将传统的 RPN 替换为强的一阶段检测器作为第一阶段时，是否会在形成概率两阶段检测器时同时提高准确性和速度？
RQ3第一阶段和第二阶段分数的概率耦合如何影响在 COCO、LVIS 和 Objects365 上的最终检测性能？
RQ4与传统的两阶段检测器相比，概率两阶段检测器中提案数量与精度之间的权衡是多少？

主要发现

在 COCO test-dev 的单尺度测试中，概率两阶段检测器的表现超过其一阶段及传统两阶段前身，达到 56.4 mAP。
基于 CenterNet2 的配置结合强骨干网络达到 56.4 mAP，超越在 COCO test-dev 上的已发表结果。
实时版 CenterNet2 在 Titan Xp 上以 33 fps 达到 49.2 mAP，超越同硬件上的 YOLOv4。
使用更少但更高质量的 proposal（256）配合经过校准的第一阶段，比传统基于 RPN 的两阶段检测器的 1K proposal 更快更准。
在 LVIS 和 Objects365 上，CenterNet2 比 CascadeRCNN 基线提高 2.7–2.9 mAP，显示对大词汇表数据集的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。