Skip to main content
QUICK REVIEW

[论文解读] CityPersons: A Diverse Dataset for Pedestrian Detection

Shanshan Zhang, Rodrigo Benenson|arXiv (Cornell University)|Feb 19, 2017
Video Surveillance and Tracking Methods参考文献 28被引用 68
一句话总结

CityPersons 增加基于 Cityscapes 的高质量 Cityscapes-based 行人标注,使单一 CNN 能在多基准上泛化,并提升 FasterRCNN 的性能,特别是对小尺和遮挡行人;语义标签显示早期收益。

ABSTRACT

Convnets have enabled significant progress in pedestrian detection recently, but there are still open questions regarding suitable architectures and training data. We revisit CNN design and point out key adaptations, enabling plain FasterRCNN to obtain state-of-the-art results on the Caltech dataset. To achieve further improvement from more and better data, we introduce CityPersons, a new set of person annotations on top of the Cityscapes dataset. The diversity of CityPersons allows us for the first time to train one single CNN model that generalizes well over multiple benchmarks. Moreover, with additional training with CityPersons, we obtain top results using FasterRCNN on Caltech, improving especially for more difficult cases (heavy occlusion and small scale) and providing higher localization quality.

研究动机与目标

  • 将 CityPersons 作为 Cityscapes 上高质量的行人边界框注释引入。
  • 证明经过适当改造的 FasterRCNN 达到最先进的结果,并且从 CityPersons 预训练中获益。
  • 展示跨数据集泛化在 Caltech、KITTI 与 CityPersons 基准中的改进。
  • 探索利用 Cityscapes 语义标签来提升检测,特别是对小尺寸行人。

提出的方法

  • 将 FasterRCNN 适配为行人检测,采用针对性的架构和训练调整。
  • 开发六项增强(M1–M5),以更好处理 Caltech 中的小尺度和遮挡行人。
  • 通过在 Cityscapes 的 5,000 张精注释图片上为行人添加全感知、对齐边界框来创建 CityPersons;标注忽略区域。
  • 提供多城、多季节且高遮挡程度的多样数据,以提升泛化。
  • 在 CityPersons 与 Caltech 上进行基线实验,比较 ACF、Checkerboards 与 FasterRCNN;分析数据量效应。
  • 通过在 CityPersons、Caltech 或 KITTI 上训练并在六个基准上测试,评估跨数据集泛化;分析预训练收益。

实验结果

研究问题

  • RQ1CityPersons 能否比仅在 Caltech 或 KITTI 上训练的模型更好地在多个数据集上泛化检测?
  • RQ2在 CityPersons 上进行预训练是否能提升在其他基准如 Caltech 与 KITTI 上的性能,尤其是具有挑战性的场景?
  • RQ3CityPersons 语义标签对行人检测的影响是什么,特别是对小尺度行人?
  • RQ4CityPersons 在跨基准实现更好的定位与对齐方面有多大帮助?

主要发现

  • CityPersons 使单个 CNN 比仅在 Caltech 或 KITTI 上训练的模型在六个基准上有更好的泛化能力。
  • 跨数据集的 CityPersons 预训练提升 Caltech 结果,尤其是对小尺度和高度遮挡的行人,并带来更好的定位(IoU=0.75)提升。
  • CityPersons 预训练在 KITTI 上有可衡量的收益,对更小尺度的检测提升更大。
  • 使用 CityPersons 数据,预训练使 Caltech 的整体性能在 MR^O 上提升约 1 个百分点,在 MR^O 的重遮挡情况提升约 8.6 个百分点,在更高的 IoU 阈值下提升更大(MR^N,IoU 0.75:+4.8)。
  • 使用来自 Cityscapes 的语义通道时,小尺寸行人检测收益最大,尽管总体增益适中(在合理子集约 ~0.6 MR)。
  • CityPersons 上的基线 FasterRCNN 显示该数据集比 Caltech 更具挑战性,但是在所测试的检测器中,FasterRCNN 仍然是最强的基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。