Skip to main content
QUICK REVIEW

[论文解读] Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

Li Xiang, Wenhai Wang|arXiv (Cornell University)|Jun 8, 2020
Advanced Neural Network Applications被引用 764
一句话总结

这篇论文提出 Generalized Focal Loss (GFL),在统一定位质量与分类的同时,将边框表示为任意分布,实现了具有高效推理的 COCO 最新结果。

ABSTRACT

One-stage detector basically formulates object detection as dense classification and localization. The classification is usually optimized by Focal Loss and the box location is commonly learned under Dirac delta distribution. A recent trend for one-stage detectors is to introduce an individual prediction branch to estimate the quality of localization, where the predicted quality facilitates the classification to improve detection performance. This paper delves into the representations of the above three fundamental elements: quality estimation, classification and localization. Two problems are discovered in existing practices, including (1) the inconsistent usage of the quality estimation and classification between training and inference and (2) the inflexible Dirac delta distribution for localization when there is ambiguity and uncertainty in complex scenes. To address the problems, we design new representations for these elements. Specifically, we merge the quality estimation into the class prediction vector to form a joint representation of localization quality and classification, and use a vector to represent arbitrary distribution of box locations. The improved representations eliminate the inconsistency risk and accurately depict the flexible distribution in real data, but contain continuous labels, which is beyond the scope of Focal Loss. We then propose Generalized Focal Loss (GFL) that generalizes Focal Loss from its discrete form to the continuous version for successful optimization. On COCO test-dev, GFL achieves 45.0\\% AP using ResNet-101 backbone, surpassing state-of-the-art SAPD (43.5\\%) and ATSS (43.6\\%) with higher or comparable inference speed, under the same backbone and training settings. Notably, our best model can achieve a single-model single-scale AP of 48.2\\%, at 10 FPS on a single 2080Ti GPU. Code and models are available at https://github.com/implus/GFocal.

研究动机与目标

  • 解决一阶段检测器在训练与测试中定位质量估计与分类之间的不一致性。
  • 提出定位质量和类别分数的联合表示,以实现训练与推理的统一。
  • 将边框位置表示为灵活的分布,而非 Dirac delta 或简单高斯,以捕捉不确定性。
  • 开发 Generalized Focal Loss (GFL),将 Focal Loss 扩展到连续目标,以同时进行质量估计和分布学习。
  • 证明使用 GFL 与 ATSS/ResNet 骨干在 COCO 上实现最先进性能,且推理高效。

提出的方法

  • 引入一个联合分类-IoU 表示,其中真值类别索引携带定位质量(IoU)值,形成端到端的统一分数。
  • 通过提出 Quality Focal Loss (QFL),将目标 y 设为区间 [0,1] 的连续目标,并使用调制因子 |y - p|^β 来扩展 Focal Loss 至连续目标。
  • 将边框位置表示为对离散化空间的 General distribution P(x),并用 softmax 进行预测,从而实现一个可学习的、灵活的回归目标。
  • 引入 Distribution Focal Loss (DFL),鼓励概率质量集中在与目标绑定坐标邻近的区域,在目标最近的 y_i 和 y_{i+1} 附近开展学习。
  • 将 QFL 与 DFL 结合在 Generalized Focal Loss (GFL) 内,联合损失 L = L_QFL + L_DFL + L_B,在特征金字塔的密集位置进行训练。
  • 证明与标准的一阶段检测器的兼容性,并显示推理开销可以忽略不计。

实验结果

研究问题

  • RQ1在一阶段检测器中,将定位质量与分类统一能否减少训练-测试的一致性问题?
  • RQ2将边框建模为灵活、可学习的分布是否能在现实世界的不确定性下提升定位准确性?
  • RQ3如何将 Focal Loss 泛化为连续目标,以同时优化质量估计与分布学习?
  • RQ4将 QFL 和 DFL 联合应用对 COCO AP 的影响如何,与基线和其他最先进检测器相比?
  • RQ5所提出的 GFL 方法是否在实际部署中具有足够的计算效率?

主要发现

  • 在 COCO 的消融实验中,使用联合分类-IoU 表示的 GFL 比基线具有更高的 AP(例如在相同骨干和训练设定下超过 SAPD 和 ATSS)。
  • QFL 能有效学习每个类别的连续质量估计,提升定位质量与整体检测性能的相关性。
  • DFL 学习出灵活的边框分布,使概率质量集中在目标坐标附近,提升在不确定性条件下的框精度。
  • QFL 与 DFL 的联合使用提供正交收益,在强力 ATSS 基线基础上提升约1个百分点的 AP,且推理开销微小。
  • GFL 在 COCO test-dev 上使用 ResNet-101 骨干达到 45.0% AP,在单模型单尺度下以 10 FPS 运行于单个 2080Ti GPU,达到 48.2% AP,优于若干既有方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。