Skip to main content
QUICK REVIEW

[论文解读] Learning to count with deep object features

Santi Seguí, Oriol Pujol|arXiv (Cornell University)|May 29, 2015
Video Surveillance and Tracking Methods参考文献 15被引用 23
一句话总结

本文提出使用训练为计数目标实例的深度卷积神经网络(CNN)作为弱监督方法,以学习强大且可迁移的目标表征。尽管未对目标位置进行直接监督,该网络仍通过利用计数信号,成功实现对数字和行人等目标的分类与定位,在下游任务(如数字分类和行人检测)中取得高准确率。

ABSTRACT

Learning to count is a learning strategy that has been recently proposed in the literature for dealing with problems where estimating the number of object instances in a scene is the final objective. In this framework, the task of learning to detect and localize individual object instances is seen as a harder task that can be evaded by casting the problem as that of computing a regression value from hand-crafted image features. In this paper we explore the features that are learned when training a counting convolutional neural network in order to understand their underlying representation. To this end we define a counting problem for MNIST data and show that the internal representation of the network is able to classify digits in spite of the fact that no direct supervision was provided for them during training. We also present preliminary results about a deep network that is able to count the number of pedestrians in a scene.

研究动机与目标

  • 探究仅通过训练CNN计数目标实例,是否能隐式学习到无需边界框标注的判别性特征用于目标识别。
  • 探索计数是否可作为全监督学习在目标识别任务中的替代方案。
  • 评估从计数任务中学习的特征向下游分类与定位问题的可迁移性。
  • 分析计数CNN的内部表征,以确定其隐式学习到的概念。
  • 证明在实际场景(如监控中的行人计数)中,使用计数作为弱监督学习策略的可行性。

提出的方法

  • 在MNIST数据上训练CNN,预测每张图像中偶数位数的数量,仅使用图像级别的计数作为监督信号。
  • 使用基于超列的可视化方法,将特征激活映射回输入图像的空间位置,识别与感兴趣概念相对应的区域。
  • 应用在线k均值聚类将特征激活分组为原型,随后使用ℓ1-正则化SVM进行稀疏特征选择。
  • 在后续可视化步骤中,以先前识别出的正样本区域为条件,以精炼感兴趣概念的定位。
  • 将计数网络中学习到的特征迁移到相关任务中,如偶数-奇数数字分类和数字识别。
  • 使用真实监控数据训练独立的CNN用于行人计数,性能通过平均绝对误差和均方误差进行评估。

实验结果

研究问题

  • RQ1仅通过训练CNN计数某一概念的实例,是否能学习到有意义且可迁移的表征用于目标识别?
  • RQ2计数在多大程度上可作为监督目标检测与分类的代理?
  • RQ3通过仅依赖计数监督,哪些类型的目标级概念(如数字、行人)可被定位与分类?
  • RQ4计数CNN的内部表征在多大程度上反映了对目标身份与空间布局的知识?
  • RQ5计数网络的性能是否能在无需额外微调的情况下泛化到下游任务(如分类与定位)?

主要发现

  • 在MNIST图像中训练用于计数偶数位数的CNN,在下游偶数-奇数数字分类任务中表现优异,证明了所学特征的可迁移性。
  • 通过可视化,网络能够定位图像中的偶数位数,绿色高亮区域与实际数字位置一致,尽管未提供边界框监督。
  • 行人计数网络在真实数据上实现了0.74的平均绝对误差和1.12的均方误差,表现强劲。
  • 可视化结果表明,网络会特异性激活与感兴趣概念(如偶数位数或行人)相关的区域,表明其具备有效的特征学习能力。
  • 计数网络的内部表征隐式编码了关于目标身份与空间结构的信息,即使没有显式标注。
  • 该方法作为全监督目标检测的弱监督替代方案展现出潜力,可在显著降低标注成本的同时保持高准确率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。