[论文解读] Bottom-up Object Detection by Grouping Extreme and Center Points
ExtremeNet 在每个对象类别检测四个极点和一个中心点,然后通过几何方式将它们分组形成边界框,在没有区域提议的情况下达到具有竞争力的 COCO 结果。
With the advent of deep learning, object detection drifted from a bottom-up to a top-down recognition problem. State of the art algorithms enumerate a near-exhaustive list of object locations and classify each into: object or not. In this paper, we show that bottom-up approaches still perform competitively. We detect four extreme points (top-most, left-most, bottom-most, right-most) and one center point of objects using a standard keypoint estimation network. We group the five keypoints into a bounding box if they are geometrically aligned. Object detection is then a purely appearance-based keypoint estimation problem, without region classification or implicit feature learning. The proposed method performs on-par with the state-of-the-art region based detection methods, with a bounding box AP of 43.2% on COCO test-dev. In addition, our estimated extreme points directly span a coarse octagonal mask, with a COCO Mask AP of 18.9%, much better than the Mask AP of vanilla bounding boxes. Extreme point guided segmentation further improves this to 34.6% Mask AP.
研究动机与目标
- 激励并证明使用极点和中心关键点的自下而上目标检测能够匹配自顶向下的基于区域的方法。
- 提出一种纯粹依赖外观的几何分组方法,以从预测的关键点形成对象边界框。
- 表明极点提供了更丰富的对象信息,并通过拟合八边形实现粗略掩模估计,以及可选地通过基于 DEXTR 的细化进行改进。
- 在 COCO 上评估 ExtremeNet,以在边界框和实例分割指标上与当代的一阶段和两阶段检测器进行比较。
提出的方法
- 使用最先进的关键点估计网络 HourglassNet,针对每个对象类别预测五个热图(四个极点:上、左、下、右;一个中心点)。
- 通过枚举可行的四元组并选择其几何中心与中心热图输出对齐的那些,将极点分组为检测结果。
- 使用带阈值的中心分组来生成边界框,并通过五个关键点热图的平均分数来估计置信度。
- 可选地应用边缘聚合以增强附近的边缘响应,以及幽灵框抑制以降低误检。
- 通过从预测的极点拟合八边形近似实例掩模,并在需要时使用 DEXTR 分割网络以极点为引导进行细化。
实验结果
研究问题
- RQ1使用四个极点和一个中心点的自下而上检测是否能够在边界框 AP 上达到与基于区域的检测器相竞争?
- RQ2在没有关联嵌入或区域提议的情况下,纯几何分组极点是否能在不同尺度和遮挡条件下可靠地将点与对象关联?
- RQ3基于极点的掩模(八边形)以及基于 DEXTR 的细化在实例分割方面相对于完全监督方法的表现如何?
主要发现
- ExtremeNet 在 COCO test-dev 上使用多尺度测试实现 43.7% 的边界框 AP,与最先进的两阶段检测器相当,并且优于许多一阶段方法。
- 基于几何推理的中心分组提供了有效的对象关联,消融实验显示在移除中心分组或边缘聚合时有显著下降。
- 由极点导出的八边形掩模在 COCO val2017 上达到 18.9% 的 Mask AP,显著高于简单边界框掩模,结合 DEXTR 时具有竞争力,达到 34.6% Mask AP。
- 幽灵框抑制和边缘聚合带来适度但有意义的改进,表明自下而上的分组方法的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。