QUICK REVIEW

[论文解读] Generalized Focal Loss V2: Learning Reliable Localization Quality Estimation for Dense Object Detection

Li Xiang, Wenhai Wang|arXiv (Cornell University)|Nov 25, 2020

Advanced Neural Network Applications参考文献 45被引用 25

一句话总结

本文提出 GFLV2，一种新颖的密集目标检测框架，通过利用 GFLV1 中引入的‘通用分布’（General Distribution）所学习到的边界框分布统计信息，预测定位质量分数。通过在这些分布统计信息上使用轻量级的分布引导质量预测器（DGQP），GFLV2 在使用 ResNet-101 时实现了 14.6 FPS 的高推理速度，达到 COCO 上 46.2 AP 的最先进性能，相比 ATSS 提升了 2.6 AP，同时保持了高效率。

ABSTRACT

Localization Quality Estimation (LQE) is crucial and popular in the recent advancement of dense object detectors since it can provide accurate ranking scores that benefit the Non-Maximum Suppression processing and improve detection performance. As a common practice, most existing methods predict LQE scores through vanilla convolutional features shared with object classification or bounding box regression. In this paper, we explore a completely novel and different perspective to perform LQE -- based on the learned distributions of the four parameters of the bounding box. The bounding box distributions are inspired and introduced as "General Distribution" in GFLV1, which describes the uncertainty of the predicted bounding boxes well. Such a property makes the distribution statistics of a bounding box highly correlated to its real localization quality. Specifically, a bounding box distribution with a sharp peak usually corresponds to high localization quality, and vice versa. By leveraging the close correlation between distribution statistics and the real localization quality, we develop a considerably lightweight Distribution-Guided Quality Predictor (DGQP) for reliable LQE based on GFLV1, thus producing GFLV2. To our best knowledge, it is the first attempt in object detection to use a highly relevant, statistical representation to facilitate LQE. Extensive experiments demonstrate the effectiveness of our method. Notably, GFLV2 (ResNet-101) achieves 46.2 AP at 14.6 FPS, surpassing the previous state-of-the-art ATSS baseline (43.6 AP at 14.6 FPS) by absolute 2.6 AP on COCO { t test-dev}, without sacrificing the efficiency both in training and inference. Code will be available at https://github.com/implus/GFocalV2.

研究动机与目标

为解决现有定位质量估计（LQE）方法依赖普通卷积特征的问题，这些特征与实际定位精度的相关性可能较低。
探索一种新范式，通过利用预测边界框分布的内在统计特性来实现 LQE。
开发一种轻量级、高效且有效的质量预测器，通过更优地排序检测结果来提升非极大值抑制（NMS）的性能。
在显著提升检测精度的同时，保持高训练与推理效率。

提出的方法

该方法通过使用‘通用分布’（即预测边界框四条边上的离散概率分布）的统计信息，而非依赖点或区域等空间特征，为 LQE 提供了新视角。
通用分布对边界框回归中的不确定性进行建模，其形状（如尖锐程度）与真实定位质量具有强相关性，经实证分析验证。
提出一种轻量级子网络——分布引导质量预测器（DGQP），以四条边的分布统计量（均值与方差）作为输入，预测定位质量分数。
DGQP 与检测器端到端联合训练，仅增加约 64 个隐藏单元，计算开销极低，有效保持了训练与推理速度。
该方法用一种分布感知的质量估计头替代传统 LQE 头（如基于 Centerness 或 IoU 的方法），更准确地反映实际定位置信度。
该框架与现有密集检测器兼容，并在 COCO 上进行了评估，展示了在不同主干网络和设置下的一致性性能提升。

实验结果

研究问题

RQ1学习到的边界框分布的统计特性能否作为定位质量估计的可靠且信息丰富的信号？
RQ2与使用传统空间特征相比，将分布统计信息作为质量预测输入，在与真实 IoU 的相关性方面表现如何？
RQ3基于分布统计信息的轻量级质量预测器是否能在不降低训练或推理效率的前提下提升检测性能？
RQ4所提出方法在多大程度上通过更优地排序高质量检测结果，减少了 NMS 中的误抑制现象？

主要发现

GFLV2 在使用 ResNet-101 的 COCO test-dev 上达到 46.2 AP，相比之前的 SOTA 方法 ATSS（43.6 AP）提升了 2.6 AP，且推理速度保持在 14.6 FPS。
所提出的 DGQP 相较于 GFLV1 将预测 IoU 与真实 IoU 之间的皮尔逊相关系数提高了 0.26，带来 0.9 AP 的性能增益。
GFLV2 中 LQE 的训练损失收敛更快且达到更低的值，表明 DGQP 降低了质量估计的学习难度。
DGQP 模块引入的计算开销可忽略不计，在 ResNet-50 上保持 19.4 FPS 的推理速度，在 ResNet-101 上保持 14.6 FPS，优于如 RepPointsV2 和 BorderDet 等方法所承受的显著速度损失。
定性可视化显示，GFLV2 为最精确的预测分配了更高的质量分数，降低了在 NMS 中错误抑制高质量检测的风险。
该方法兼具高效与兼容性：在 ResNet-50 上实现 41.1 AP，训练时间未增加，推理速度保持 19.4 FPS，优于 PAA、RepPointsV2 和 BorderDet，在准确率与效率方面均表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。