[论文解读] FCOS: Fully Convolutional One-Stage Object Detection
FCOS 提供一个锚点和候选框免费、完全卷积的一阶段目标检测器,使用多尺度预测和中心性分支,在单模型一阶段检测器中达到最先进的结果,例如在 COCO 上取得 44.7 AP,并有改进。
We propose a fully convolutional one-stage object detector (FCOS) to solve object detection in a per-pixel prediction fashion, analogue to semantic segmentation. Almost all state-of-the-art object detectors such as RetinaNet, SSD, YOLOv3, and Faster R-CNN rely on pre-defined anchor boxes. In contrast, our proposed detector FCOS is anchor box free, as well as proposal free. By eliminating the predefined set of anchor boxes, FCOS completely avoids the complicated computation related to anchor boxes such as calculating overlapping during training. More importantly, we also avoid all hyper-parameters related to anchor boxes, which are often very sensitive to the final detection performance. With the only post-processing non-maximum suppression (NMS), FCOS with ResNeXt-64x4d-101 achieves 44.7% in AP with single-model and single-scale testing, surpassing previous one-stage detectors with the advantage of being much simpler. For the first time, we demonstrate a much simpler and flexible detection framework achieving improved detection accuracy. We hope that the proposed FCOS framework can serve as a simple and strong alternative for many other instance-level tasks. Code is available at:Code is available at: https://tinyurl.com/FCOSv1
研究动机与目标
- 将目标检测重新表述为与语义分割相似的逐像素预测。
- 消除锚框及相关超参数,以简化训练和推理。
- 利用多级 FPN 提高召回并减少重叠框带来的歧义。
- 引入中心性分支以抑制低质量检测并提升准确性。
- 展示作为基线以及其他实例级任务扩展的强大性能。
提出的方法
- 在每个像素上预测一个四维向量 (l, t, r, b),将边界框的各边相对于该位置进行编码。
- 使用来自 FPN 的多级特征图(P3–P7)覆盖目标尺度,并对每级的回归使用 m_i 阈值进行限制。
- 对分类使用 focal loss,对回归使用基于 IoU 的损失,进行归一化并引入可学习的逐层指数基底。
- 引入一个单层中心性分支,用于对像素距离目标中心的程度进行评分,并在推理时将该分数与分类置信度相乘。
- 以真值框内的像素作为正样本进行训练,并使用简单的歧义规则(重叠时选取面积最小的框)。
- 在新增头部中使用 GN 以提升稳定性,并复用 RetinaNet 式的训练/测试超参数以实现公平比较。
实验结果
研究问题
- RQ1是否可以在类似语义分割的逐像素、无锚点框架中有效解决目标检测?
- RQ2去除锚框及相关超参数是否在不牺牲准确性的前提下提升简洁性?
- RQ3通过 FPN 的多级预测是否能缓解无锚点检测器中由于重叠真实框引起的召回和歧义问题?
- RQ4中心性信号是否能有效抑制低质量检测并提升整体性能?
- RQ5FCOS 能否作为强有力的基线以及两阶段检测器中的区域提议网络?
主要发现
- 在相同的训练/测试设置下,FCOS 的性能具竞争力且在多数情况下优于基于锚点的检测器(例如 AP 与 RetinaNet 相当或更高)。
- 在同样设置下,采用 ResNet-50 + FPN 的 FCOS 达到了比某些基于锚点的同类方法更高的 AR。
- 不使用中心性时,AP 在约 33.5–36.3 之间,具体取决于配置;有中心性后,AP 提升至 37.1(在改进下可达到 38.1–38.6)。
- 报道的最佳单模型单尺度结果在 ResNeXt-64x4d-101-FPN 上达到 44.7 AP,通过改进超越了 COCO test-dev 上的锚点 RetinaNet 2.4 AP。
- 多级预测将模糊样本率从 23.16%(无 FPN)降至 7.14%(有 FPN),在仅考虑跨类别重叠时接近 1.5%。
- FCOS 展现出作为实例级任务的简单、灵活基线的强大潜力,以及作为两阶段检测器中有效的 RPN 替代(例如 AR100 的 AR 增益为 8.1%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。