Skip to main content
QUICK REVIEW

[论文解读] Cascade R-CNN: Delving into High Quality Object Detection

Zhaowei Cai, Nuno Vasconcelos|arXiv (Cornell University)|Dec 3, 2017
Advanced Neural Network Applications参考文献 25被引用 393
一句话总结

Cascade R-CNN 引入一个多阶段检测器,具有逐步提高的 IoU 阈值,在训练阶段递归训练并在推理阶段应用,以在 COCO 数据集上实现跨架构的高质量目标检测。

ABSTRACT

In object detection, an intersection over union (IoU) threshold is required to define positives and negatives. An object detector, trained with low IoU threshold, e.g. 0.5, usually produces noisy detections. However, detection performance tends to degrade with increasing the IoU thresholds. Two main factors are responsible for this: 1) overfitting during training, due to exponentially vanishing positive samples, and 2) inference-time mismatch between the IoUs for which the detector is optimal and those of the input hypotheses. A multi-stage object detection architecture, the Cascade R-CNN, is proposed to address these problems. It consists of a sequence of detectors trained with increasing IoU thresholds, to be sequentially more selective against close false positives. The detectors are trained stage by stage, leveraging the observation that the output of a detector is a good distribution for training the next higher quality detector. The resampling of progressively improved hypotheses guarantees that all detectors have a positive set of examples of equivalent size, reducing the overfitting problem. The same cascade procedure is applied at inference, enabling a closer match between the hypotheses and the detector quality of each stage. A simple implementation of the Cascade R-CNN is shown to surpass all single-model object detectors on the challenging COCO dataset. Experiments also show that the Cascade R-CNN is widely applicable across detector architectures, achieving consistent gains independently of the baseline detector strength. The code will be made available at https://github.com/zhaoweicai/cascade-rcnn.

研究动机与目标

  • 指出固定 IoU 阈值在检测中对正样本与困难假阳性之间造成的权衡。
  • 提出一个级联检测架构,使后续阶段专注于更高的 IoU(质量)水平。
  • 证明级联训练和推理可以缓解训练与测试阶段候选框之间的过拟合和分布不匹配。
  • 证明 Cascade R-CNN 在 COCO 上对不同骨干检测器提供一致的增益,并且计算开销适中。

提出的方法

  • 引入一系列以递增 IoU 阈值 u^t 训练的检测器,以逐步抑制接近的假阳性。
  • 使用级联边界框回归,其中 f_T ◦ f_{T-1} ◦ ... ◦ f_1 逐阶段细化候选框,结合各阶段的特定训练分布。
  • 用各阶段的均值/方差对回归目标 Δ=(δx, δy, δw, δh) 进行归一化,以稳定多任务学习。
  • 用损失函数 L(x^t,g)=L_cls(h_t(x^t),y^t)+λ[y^t≥1]L_loc(f_t(x^t,b^t),g) 训练每个阶段,以确保逐阶段的质量提升。
  • 推理阶段应用相同的级联系统,以使假设质量与各阶段检测器的能力相一致。
  • 证明级联分布使正样本数量维持在大致恒定的水平,从而减少过拟合并提升高 IoU 的性能。
  • 显示与多种基线两阶段检测器(Faster R-CNN、R-FCN、FPN)兼容,无需特殊花活。

实验结果

研究问题

  • RQ1相对于单一阈值检测器,级联检测器架构是否能提升高 IoU(高质量)检测?
  • RQ2在训练和推理中使用逐步提高的 IoU 阈值是否会减少候选框质量与检测器质量之间的过拟合和不匹配?
  • RQ3Cascade R-CNN 在 COCO 上对不同基线检测器和骨干网络是否有效?
  • RQ4级联深度和各阶段的 IoU 阈值对定位和检测性能的影响是什么?

主要发现

  • Cascade R-CNN 以普通实现方式在 COCO 上超越所有单模型检测器。
  • 增益在基线检测器和骨干网络间保持一致,通常在 2 到 4 AP 点的范围内。
  • 级联回归在较高 IoU 假设下改善定位,与单一回归器或迭代的盒回归在高 IoU 时下降不同。
  • 在所有指标上,整体损失多头设置不及级联系统。
  • 三阶段 Cascade R-CNN 提供最佳的整体平衡;第四阶段收益递减,可能降低总体 AP 但提升高 IoU 性能。
  • 该方法可推广至 Faster R-CNN、R-FCN 和 FPN 骨干,在检测器能力增强时维持增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。