QUICK REVIEW

[论文解读] Leveraging Unlabeled Data for Crowd Counting by Learning to Rank

Xialei Liu, Joost van de Weijer|arXiv (Cornell University)|Mar 8, 2018

Video Surveillance and Tracking Methods参考文献 34被引用 23

一句话总结

本文提出一种自监督学习方法用于人群计数，通过利用未标注的人群图像中的排序不变性来实现：拥挤场景的子图像中的人数不超过其父图像。通过训练一个多任务网络，同时预测密度图并根据人数对子图像进行排序，该方法在 UCF_CC_50 和 ShanghaiTech 数据集上实现了最先进性能，显著提升了泛化能力并减少了在有限标注数据下的误差。

ABSTRACT

We propose a novel crowd counting approach that leverages abundantly available unlabeled crowd imagery in a learning-to-rank framework. To induce a ranking of cropped images , we use the observation that any sub-image of a crowded scene image is guaranteed to contain the same number or fewer persons than the super-image. This allows us to address the problem of limited size of existing datasets for crowd counting. We collect two crowd scene datasets from Google using keyword searches and query-by-example image retrieval, respectively. We demonstrate how to efficiently learn from these unlabeled datasets by incorporating learning-to-rank in a multi-task network which simultaneously ranks images and estimates crowd density maps. Experiments on two of the most challenging crowd counting datasets show that our approach obtains state-of-the-art results.

研究动机与目标

为解决人群计数数据集小且标注成本高的关键限制，利用大量未标注的人群图像。
通过在互联网获取的未标注数据上进行自监督预训练，提升深度人群计数模型的泛化能力和性能。
设计一种多任务学习框架，联合优化密度回归与图像裁剪的相对排序。
证明基于排序的自监督方法在人群计数中优于标准预训练与微调策略。
通过跨数据集迁移学习与最先进方法的对比，验证该方法的有效性。

提出的方法

利用任何拥挤场景的子图像中的人数不超过其父图像中人数的观察，生成裁剪图像的自然排序。
通过关键词搜索和基于示例的图像检索从 Google 收集两个大规模未标注人群数据集。
设计一种多任务深度学习架构，使用对比排序损失联合执行人群密度估计与图像裁剪排序。
在训练过程中应用自监督排序目标：对于一组嵌套裁剪图像，模型学习预测更大的图像包含更多人数。
使用标注数据的监督损失与未标注数据的对比排序损失相结合，端到端训练网络。
采用数据增强和多尺度推理以提升鲁棒性与泛化能力。

实验结果

研究问题

RQ1能否通过未标注人群场景中图像裁剪的自监督排序来提升人群计数性能？
RQ2在多任务网络中将排序作为代理任务，是否能获得优于标准预训练或微调策略的结果？
RQ3该方法在跨数据集泛化方面有多有效，特别是在一个数据集上训练并在另一个数据集上测试时？
RQ4该方法能否在基准数据集上超越现有最先进的人群计数模型？
RQ5与纯监督训练相比，基于排序的自监督是否能降低误差并提升鲁棒性？

主要发现

在 UCF_CC_50 数据集上，使用基于关键词的未标注数据集，该方法将 MAE 从 295.8（SOTA）降低至 279.6。
在 ShanghaiTech Part_A 数据集上，该方法实现了 MAE 73.6 和 MSE 112.0，优于先前的 SOTA 方法。
在 ShanghaiTech Part_B 上，该方法实现了 MAE 13.7 和 MSE 21.4，展示了在高密度、具有挑战性的场景中的强大性能。
多任务方法（结合排序与计数）优于单任务训练，在 ShanghaiTech Part_B 上相比基线 MAE 提升了 30%。
在跨数据集迁移学习中（ShanghaiTech Part_A → UCF_CC_50），该方法将 MAE 从 349.5 降低至 337.6，MSE 从 475.7 降低至 434.3，优于唯一报告此类结果的其他方法。
该方法泛化能力良好，预测结果与真实密度图高度一致，如图 5 所示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。