QUICK REVIEW

[论文解读] Detection in Crowded Scenes: One Proposal, Multiple Predictions

Xuangeng Chu, Anlin Zheng|arXiv (Cornell University)|Mar 20, 2020

Anomaly Detection Techniques and Applications参考文献 57被引用 25

一句话总结

该论文提出了一种新颖的物体检测框架，使每个候选框能够预测多个重叠实例，而非单一实例，从而解决在高度密集、重叠严重的场景中检测物体的挑战。通过引入用于集合预测的EMD损失和用于重复抑制的Set NMS，该方法在CrowdHuman数据集上实现了4.9%的AP提升，在CityPersons数据集上MR⁻²提升了1.0%，并在包括COCO在内的多个数据集上均表现出一致的性能增益。

ABSTRACT

We propose a simple yet effective proposal-based object detector, aiming at detecting highly-overlapped instances in crowded scenes. The key of our approach is to let each proposal predict a set of correlated instances rather than a single one in previous proposal-based frameworks. Equipped with new techniques such as EMD Loss and Set NMS, our detector can effectively handle the difficulty of detecting highly overlapped objects. On a FPN-Res50 baseline, our detector can obtain 4.9\% AP gains on challenging CrowdHuman dataset and 1.0\% $ ext{MR}^{-2}$ improvements on CityPersons dataset, without bells and whistles. Moreover, on less crowed datasets like COCO, our approach can still achieve moderate improvement, suggesting the proposed method is robust to crowdedness. Code and pre-trained models will be released at https://github.com/megvii-model/CrowdDetection.

研究动机与目标

解决标准基于候选框的检测器在高度重叠的密集场景中检测实例时的失败问题。
克服NMS在因特征相似性和空间重叠而抑制正确但重叠的预测时的局限性。
开发一种简单、可即插即用的解决方案，增强现有检测器，且计算成本几乎不变。
确保在从高度密集到稀疏场景的多种拥挤程度下均具备鲁棒性。
在提升密集实例检测召回率的同时减少误报，尤其在具有挑战性的场景中。

提出的方法

将每个候选框的单实例预测替换为多实例预测，使每个候选框可输出一组候选检测结果。
引入地球移动距离（EMD）损失以监督实例集合的预测，实现与真实标注集合更好的对齐。
提出Set NMS，一种后处理方法，通过抑制来自不同候选框的重复实例集合，而非单个边界框。
集成一个精炼模块（RM），用于过滤预测实例集合中的误报，提升精度。
保持与现有基于候选框的检测器（如FPN）的兼容性，仅需添加一个小型轻量级预测头。
使用可学习的集合预测头，为每个候选框预测固定大小的边界框集合及置信度分数。

实验结果

研究问题

RQ1在物体高度重叠的密集场景中，每个候选框预测多个实例是否能提升检测性能？
RQ2所提出的EMD损失与标准回归和分类损失相比，在学习集合级预测时表现如何？
RQ3Set NMS是否能有效抑制来自重叠候选框的重复预测，同时不丢弃有效检测？
RQ4该方法是否能良好泛化到重叠程度较低的数据集（如COCO和CityPersons）？
RQ5精炼模块在保留密集实例召回率的同时，能在多大程度上减少误报？

主要发现

与FPN基线相比，所提方法在CrowdHuman数据集上的AP绝对提升了4.9%，且无需额外技巧。
在CityPersons数据集上，该方法使MR⁻²提升1.0%，AP提升0.9%，密集实例的召回率显著提高8.9%。
在COCO数据集上，该方法比FPN基线提升1.0%的AP，比Soft-NMS提升0.5%，表明其在多类别和较不密集场景中的泛化能力。
CityPersons数据集中密集实例的召回率从108个中的64个提升至96个，表明在检测困难的重叠案例方面有显著改进。
该方法在大尺寸物体上也保持高性能（COCO上APₗ提升1.5%），表明物体尺寸和重叠程度是性能增益的关键因素。
Set NMS能有效抑制相邻候选框产生的重复预测，减少误报并提升精度，且不依赖置信度阈值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。