[论文解读] CrowdHuman: A Benchmark for Detecting Human in a Crowd
本文介绍 CrowdHuman,这是一个用于在拥挤场景中进行行人检测的大规模、富标注数据集,包含 470k 个实例、每张图像平均 22.6 个人,以及每个人的三种边界框类型,并在用作预训练时展示了对跨数据集的强大泛化能力。
Human detection has witnessed impressive progress in recent years. However, the occlusion issue of detecting human in highly crowded environments is far from solved. To make matters worse, crowd scenarios are still under-represented in current human detection benchmarks. In this paper, we introduce a new dataset, called CrowdHuman, to better evaluate detectors in crowd scenarios. The CrowdHuman dataset is large, rich-annotated and contains high diversity. There are a total of $470K$ human instances from the train and validation subsets, and $~22.6$ persons per image, with various kinds of occlusions in the dataset. Each human instance is annotated with a head bounding-box, human visible-region bounding-box and human full-body bounding-box. Baseline performance of state-of-the-art detection frameworks on CrowdHuman is presented. The cross-dataset generalization results of CrowdHuman dataset demonstrate state-of-the-art performance on previous dataset including Caltech-USA, CityPersons, and Brainwash without bells and whistles. We hope our dataset will serve as a solid baseline and help promote future research in human detection tasks.
研究动机与目标
- 解决在拥挤场景中对人类进行检测时的重遮挡挑战。
- 提供一个大型且多样化的数据集,以比现有基准更好地代表人群遮挡。
- 为每个人提供三种边界框标注(头部、可见区域、全身),以支持对遮挡感知的检测。
- 展示跨数据集泛化能力以及 CrowdHuman 作为其他基准数据的预训练数据的实用性。
提出的方法
- 从网络图像中收集并标注多样化的人群场景(约 6 万个候选、约 2.5 万最终数据)横跨 15k 训练图像、4,370 验证图像和 5,000 测试图像。
- 为每个人类标注全身、可见区域和头部边界框,并进行二次检查以确保质量。
- 提供关于密度、遮挡以及成对/成三重重叠的丰富统计数据,以表征人群难度。
- 使用 mMR 和 AP 指标评估基线检测器(FPN 配 Faster R-CNN 以及 RetinaNet),并对全身/可见/头部任务调整锚框比。
- 进行跨数据集实验:先在 CrowdHuman 上进行预训练,然后在 Caltech、CityPersons、COCOPersons 与 Brainwash 上微调以评估泛化能力。
实验结果
研究问题
- RQ1CrowdHuman 在拥挤场景下的性能与现有数据集相比如何?
- RQ2CrowdHuman 能否作为有效的预训练数据来提升在 Caltech、CityPersons、COCOPersons 与 Brainwash 的检测效果?
- RQ3三种边界框标注在检测拥挤人群中的全身、可见区域和头部方面能带来哪些好处?
- RQ4在 CrowdHuman 上预训练的检测器对不同的步行行人和头部检测基准的泛化能力如何?
主要发现
- CrowdHuman 在 train+validation 子集大约包含 47 万个行人实例,覆盖 15,000 张训练图像,平均每张图像 22.6 个行人。
- 数据集为每个人提供三种边界框类型:头部、可见身体和全身。
- 基线检测器(FPN 和 RetinaNet)显示出显著的性能差异,FPN 在这些任务上通常优于 RetinaNet。
- 在 CrowdHuman 上的跨数据集预训练提升了 Caltech 的性能(mMR 8.81 对比 Caltech 基线 10.08)、CityPersons(mMR 21.18 对比 14.81)和 Brainwash(mMR 17.24 对比 19.77)。
- 在 COCOPersons 上进行微调前的 CrowdHuman 预训练得到 AP 85.02 和 mMR 39.79,而仅在 COCOPersons 上训练时为 AP 83.83 和 mMR 41.89。
- CrowdHuman 预训练在随后对 CityPersons 进行微调后也能提升结果(例如从 CrowdHuman 微调至 CityPersons 时的 mMR 为 10.67)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。