Skip to main content
QUICK REVIEW

[论文解读] Learning Spatial Fusion for Single-Shot Object Detection

Songtao Liu, Di Huang|arXiv (Cornell University)|Nov 21, 2019
Advanced Neural Network Applications参考文献 44被引用 464
一句话总结

论文提出自适应空间特征融合(ASFF),在特征金字塔各层之间学习逐位置的融合权重,降低单阶段检测器的跨尺度不一致性,并在 COCO 数据集上改善速度-精度权衡。

ABSTRACT

Pyramidal feature representation is the common practice to address the challenge of scale variation in object detection. However, the inconsistency across different feature scales is a primary limitation for the single-shot detectors based on feature pyramid. In this work, we propose a novel and data driven strategy for pyramidal feature fusion, referred to as adaptively spatial feature fusion (ASFF). It learns the way to spatially filter conflictive information to suppress the inconsistency, thus improving the scale-invariance of features, and introduces nearly free inference overhead. With the ASFF strategy and a solid baseline of YOLOv3, we achieve the best speed-accuracy trade-off on the MS COCO dataset, reporting 38.1% AP at 60 FPS, 42.4% AP at 45 FPS and 43.9% AP at 29 FPS. The code is available at https://github.com/ruinmessi/ASFF

研究动机与目标

  • 通过使用金字塔特征表示解决目标检测中的尺度变化问题。
  • 在单阶段检测器进行特征融合时,缓解特征金字塔层之间的一致性问题。
  • 提供一种数据驱动的融合机制,保持效率并提升准确性。

提出的方法

  • 引入 ASFF,在每个位置跨特征金字塔层学习空间融合权重。
  • 在自适应融合之前,将来自所有层的特征调整到统一分辨率。
  • 通过对学习参数 lambda 进行 softmax 计算得到融合权重 alpha、beta、gamma,使 alpha+beta+gamma=1。
  • 按层进行融合,y^l_ij = alpha^l_ij x^{1->l}_ij + beta^l_ij x^{2->l}_ij + gamma^l_ij x^{3->l}_ij。
  • 端到端训练,使用标准检测损失以及现有的 YOLOv3(和 IoU)损失;推理开销保持在近似恒定。
  • 证明与 YOLOv3 和 RetinaNet 的骨干网络兼容,并展示速度-精度的提升。

实验结果

研究问题

  • RQ1自适应、逐位置的跨特征金字塔层融合是否能减少单阶段检测器的尺度不一致性?
  • RQ2与标准融合(相加/拼接)和忽略区域策略相比,ASFF 在准确性和速度上有何差异?
  • RQ3ASFF 是否能在不牺牲大目标性能的前提下,提升对小目标和中等目标的检测?
  • RQ4ASFF 是否对骨干网络和检测器设计具有无关性,实际推理开销又如何?

主要发现

  • ASFF 将基于 YOLOv3 的检测器 AP 从 COCO val-2017 的 38.8% 提升到 40.6%(开销极小)。
  • ASFF 仅增加约 2 ms 的推理时间,保持在大约 46 FPS。
  • ASFF 对小目标和中等目标的增益更显著(AP_S 和 AP_M 各提升约 2.9 点)。
  • 采用 ASFF 的 RetinaNet 在基线之上持续提升 AP(如 R50-FPN:从 35.9 提升至 37.4;R101-FPN:从 39.1 提升至 40.1,均在 val-2017)。
  • 在 COCO test-dev 上,YOLOv3+ASFF* 达到 63 FPS 时 AP 为 42.4;ASFF* 变体在 29 FPS 时 AP 为 43.9。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。