[论文解读] Benchmark data and method for real-time people counting in cluttered scenes using depth sensors
本文介绍了首个大规模公开的RGB-D数据集PCDS,包含超过4,600段真实复杂环境下人员上下公交车的视频,并提出了一种基于深度视频的实时人员计数方法。该方法通过计算3D点云,将其正交投影到地面平面以生成归一化高度图像,利用3D人体模型检测并优化人体头部候选区域,跟踪轨迹,并通过聚合退出轨迹实现计数,在1.7 GHz处理器上达到45 fps的处理速度,且在PCDS数据集上表现出高精度。
Vision-based automatic counting of people has widespread applications in intelligent transportation systems, security, and logistics. However, there is currently no large-scale public dataset for benchmarking approaches on this problem. This work fills this gap by introducing the first real-world RGB-D People Counting DataSet (PCDS) containing over 4,500 videos recorded at the entrance doors of buses in normal and cluttered conditions. It also proposes an efficient method for counting people in real-world cluttered scenes related to public transportations using depth videos. The proposed method computes a point cloud from the depth video frame and re-projects it onto the ground plane to normalize the depth information. The resulting depth image is analyzed for identifying potential human heads. The human head proposals are meticulously refined using a 3D human model. The proposals in each frame of the continuous video stream are tracked to trace their trajectories. The trajectories are again refined to ascertain reliable counting. People are eventually counted by accumulating the head trajectories leaving the scene. To enable effective head and trajectory identification, we also propose two different compound features. A thorough evaluation on PCDS demonstrates that our technique is able to count people in cluttered scenes with high accuracy at 45 fps on a 1.7 GHz processor, and hence it can be deployed for effective real-time people counting for intelligent transportation systems.
研究动机与目标
- 为解决使用深度传感器在复杂场景中进行实时人员计数时缺乏大规模公开数据集的问题。
- 开发一种高效、实时的人员计数方法,适用于公共交通出入口等复杂真实环境。
- 在存在遮挡、杂乱、光照变化和深度噪声等真实深度视频数据常见问题的情况下,提升计数精度。
- 通过结合3D点云重投影、基于3D人体模型的头部检测以及基于轨迹的计数方法,实现可靠计数。
- 提供一个公开可用的基准数据集(PCDS),以加速基于RGB-D的人员计数研究。
提出的方法
- 该方法首先通过减去静态背景来分离前景运动,处理深度视频流。
- 从深度帧构建3D点云,并将其正交投影到地面平面,以生成用于改善分割的归一化高度图像。
- 在高度图像中使用专为基于深度的头部检测设计的复合特征检测潜在的人体头部。
- 利用3D人体模型通过模拟合理的人体头部位置和尺寸来优化头部候选区域,提高检测可靠性。
- 通过一种基于几何一致性与复合特征分类和优化运动路径的跟踪算法,在连续帧之间跟踪头部轨迹。
- 通过累积退出场景的轨迹来统计人数,最终计数基于完整退出轨迹的数量。
实验结果
研究问题
- RQ1能否创建一个大规模、真实世界中的RGB-D数据集,用于在光照、遮挡和噪声等现实变化下对复杂场景中的人员计数进行基准测试?
- RQ2基于深度的方法是否能在低成本硬件上实现≥30 fps的实时性能,同时在复杂场景中保持高精度?
- RQ3将3D点云正交投影到地面平面在提升深度视频中头部检测与分割效果方面有多显著?
- RQ4在复杂场景中,集成3D人体模型在提升头部候选区域优化和减少误报方面有多大作用?
- RQ5在存在部分遮挡和排队效应的情况下,基于优化头部检测的轨迹计数方法是否仍能实现高精度?
主要发现
- 所提方法在1.7 GHz处理器和2GB内存条件下,处理速度约为45 fps,适用于车载部署。
- 在PCDS数据集上,该方法对公交车出口人员的检测率达到91.30%,对入口人员的检测率为75.32%,在真实世界条件下表现出色。
- 轨迹跟踪组件对出口轨迹的精确率(precision)为0.98,召回率(recall)为0.97,F1分数为0.98,表明轨迹分类具有高度可靠性。
- 在高度图像中使用复合特征显著提升了头部检测精度,受试者工作特征曲线(ROC)验证显示,进入和离开场景的AUC值均高于0.95。
- PCDS数据集包含4,689段视频,涵盖多样的光照、遮挡和噪声条件,是未来研究的具有挑战性且真实的基准。
- 每帧的平均计算时间为22.1ms,证实了其在低资源嵌入式系统中实时部署的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。