Skip to main content
QUICK REVIEW

[论文解读] Taking a Deeper Look at Pedestrians

Jan Hosang, Mohamed Omran|arXiv (Cornell University)|Jan 23, 2015
Video Surveillance and Tracking Methods被引用 54
一句话总结

该论文表明,未经专门架构改进(如部件建模或遮挡建模)的普通卷积神经网络(CNN),在Caltech和KITTI数据集上也能实现最先进的人行检测性能。仅使用RGB输入和标准训练协议,作者证明了小型(CifarNet)和大型(AlexNet)现成CNN模型在性能上优于以往基于CNN的检测器,并与使用光流或手工设计特征的方法相当或更优。

ABSTRACT

In this paper we study the use of convolutional neural networks (convnets) for the task of pedestrian detection. Despite their recent diverse successes, convnets historically underperform compared to other pedestrian detectors. We deliberately omit explicitly modelling the problem into the network (e.g. parts or occlusion modelling) and show that we can reach competitive performance without bells and whistles. In a wide range of experiments we analyse small and big convnets, their architectural choices, parameters, and the influence of different training data, including pre-training on surrogate tasks. We present the best convnet detectors on the Caltech and KITTI dataset. On Caltech our convnets reach top performance both for the Caltech1x and Caltech10x training setup. Using additional data at training time our strongest convnet model is competitive even to detectors that use additional data (optical flow) at test time.

研究动机与目标

  • 探究标准、未经修改的卷积神经网络(CNN)是否能在不显式建模部件或遮挡的情况下实现竞争性的人行检测性能。
  • 评估网络深度、宽度以及训练数据规模对人行检测准确率的影响。
  • 确定在标注数据有限的情况下,是否通过在替代任务(如ImageNet)上预训练可提升人行检测性能。
  • 比较不同建议框生成方法和输入表示方式(如RGB与手工设计特征)在基于CNN的检测流程中的有效性。
  • 仅使用标准训练数据且不引入测试时辅助输入,建立基于CNN的人行检测器在Caltech和KITTI基准上的新最先进水平。

提出的方法

  • 仅使用RGB图像作为输入,对小型(CifarNet)和大型(AlexNet)现成CNN进行人行检测训练。
  • 在Caltech和KITTI测试集上使用标准检测指标(平均漏检率的对数)评估性能。
  • 通过在ImageNet上预训练,再在Caltech上微调,应用迁移学习以提升泛化能力。
  • 使用选择性搜索和HOG+CSS-based建议框方法生成候选检测窗口,供CNN进行评分。
  • 在不同网络架构、训练数据设置(Caltech1x和Caltech10x)以及输入类型(RGB、YUV、HOG等)之间进行结果比较。
  • 应用标准训练技术,包括数据增强、学习率调度和批量归一化,以优化性能。

实验结果

研究问题

  • RQ1标准、非专用的CNN是否能在不显式建模部件或遮挡的情况下实现人行检测的最先进性能?
  • RQ2当训练数据有限时,网络容量(如CifarNet与AlexNet)如何影响性能?
  • RQ3在ImageNet上预训练在多大程度上能提升在Caltech数据集上的检测准确率?
  • RQ4仅使用RGB输入与使用HOG或梯度等手工设计特征相比,性能是更好还是更差?
  • RQ5在与CNN结合使用时,不同建议框方法(如选择性搜索与HOG+CSS)对最终检测性能有何影响?

主要发现

  • CifarNet模型在Caltech10x测试集上实现了28.4%的平均漏检率,优于所有此前在相同数据上训练的基于CNN的检测器。
  • AlexNet模型在Caltech10x上达到27.5%的漏检率,在Caltech1x上达到32.4%,在两种训练设置下均优于所有先前的基于CNN的方法。
  • 即使未在ImageNet上预训练,AlexNet在Caltech1x上仍表现出具有竞争力的性能(32.4%的MR),表明在极少架构修改下即可获得优异结果。
  • 在ImageNet上预训练显著提升了性能,使AlexNet在未使用此类数据的情况下,仍能匹配或超越使用测试时光流的方法。
  • 本研究证明,CNN与传统方法(如决策森林)之间的性能差距并非固有,通过适当的训练和数据,普通CNN可以弥合这一差距。
  • 结果表明,输入选择(RGB与HOG+梯度)对性能有显著影响,但仅使用RGB即可获得良好结果,挑战了手工设计特征必不可少的观念。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。