[论文解读] SynMVCrowd: A Large Synthetic Benchmark for Multi-view Crowd Counting and Localization
SynMVCrowd 引入了一个用于多视角人群计数与定位的大型合成基准,包含 50 个场景、50 个相机视角、每场景 200 帧,以及每场景 200–1000 人,并提出一个强大的多视图基线,在性能上优于现有方法。
Existing multi-view crowd counting and localization methods are evaluated under relatively small scenes with limited crowd numbers, camera views, and frames. This makes the evaluation and comparison of existing methods impractical, as small datasets are easily overfit by these methods. To avoid these issues, 3DROM proposes a data augmentation method. Instead, in this paper, we propose a large synthetic benchmark, SynMVCrowd, for more practical evaluation and comparison of multi-view crowd counting and localization tasks. The SynMVCrowd benchmark consists of 50 synthetic scenes with a large number of multi-view frames and camera views and a much larger crowd number (up to 1000), which is more suitable for large-scene multi-view crowd vision tasks. Besides, we propose strong multi-view crowd localization and counting baselines that outperform all comparison methods on the new SynMVCrowd benchmark. Moreover, we prove that better domain transferring multi-view and single-image counting performance could be achieved with the aid of the benchmark on novel new real scenes. As a result, the proposed benchmark could advance the research for multi-view and single-image crowd counting and localization to more practical applications. The codes and datasets are here: https://github.com/zqyq/SynMVCrowd.
研究动机与目标
- 在大规模、跨场景设置下,推动对多视角人群计数/定位的评估与比较。
- 提供一个大型合成基准,以降低过拟合并提升在真实世界部署中的泛化能力。
- 建立强大的多视角计数与定位基线,在新基准上优于现有方法。
- 探索跨领域收益,以便通过 SynMVCrowd 将领域转移到新颖真实场景。
提出的方法
- 将基于 GTA-V 的 GCC 合成管线扩展为生成 50 个场景、50 个相机视角和每场景 200 帧。
- 创建详细的场景设置,包括基于 ROI 的人群放置、天气与时间变化,以及覆盖每个场景的相机布置。
- 定义角色设置,具备多样化化身、随机但受控的动作,以及用于在各视图中进行精确跟踪的唯一 ID。
- 通过逐步填充子区域来合成场景,超过 GTA-V 场景的 256 人上限并合并以生成具有地面真值注释的多视图帧。
- 提出一个强大的多视图基线,包含单视图特征提取、空间特征选择、多视图特征投影与融合,以及多视图解码模块,使用 MSE 或 Optimal Transport 损失进行训练。
- 在与最先进的多视图方法比较时评估基线,并分析跨场景泛化能力与单图像适用性。
实验结果
研究问题
- RQ1在具有多样场景、相机视图和人群密度的大型合成基准下,是否能更好地评估和比较跨场景设置中的多视角人群计数/定位方法?
- RQ2在 SynMVCrowd 上训练的强大多视图基线是否在本基准上超越现有方法并推广到新场景?
- RQ3在 SynMVCrowd 上使用最优传输损失与使用 MSE 损失相比,对多视角人群定位有何影响?
- RQ4SynMVCrowd 是否促进单图像人群计数/定位的改进,同时推动多视图任务?
- RQ5SynMVCrowd 如何帮助评估对真实世界场景的领域转移?
主要发现
| Method | MODA | MODP | Precision | Recall | F1_score |
|---|---|---|---|---|---|
| MVDet | 27.0 | 52.2 | 72.2 | 43.9 | 54.6 |
| SHOT | 32.5 | 52.6 | 74.5 | 49.3 | 59.3 |
| MVDeTr | 35.6 | 69.7 | 95.4 | 37.4 | 53.7 |
| 3DROM | 24.2 | 59.2 | 86.1 | 28.8 | 43.2 |
| SVCW | 35.8 | 55.6 | 75.8 | 51.7 | 61.4 |
| MVOT | 45.5 | 66.3 | 83.4 | 56.9 | 67.6 |
| TrackTacular | 45.8 | 71.1 | 92.6 | 49.8 | 64.8 |
| Baseline (MSE) | 34.6 | 74.5 | 92.9 | 37.4 | 53.4 |
| Baseline (OT) | 49.6 | 70.2 | 88.6 | 57.0 | 69.4 |
- SynMVCrowd 是用于多视角和单图像人群计数/定位的最大规模合成基准,包含 50 个场景、50 个相机视角、每场景 200 帧,以及每场景 200–1000 人。
- 提出的 Baseline (OT) 在 SynMVCrowd 上在 MODA、MODP、Precision、Recall 与 F1_score 等指标上超越所有列出的基线和 SOTA 的多视图定位方法。
- 某些现有方法如 SHOT、MVDeTr、MVOT 在特定指标上具有优势(如多高度融合、可变形融合或点式监督),但整体上 Baseline (OT) 在 SynMVCrowd 上实现了定位指标的最佳平衡。
- SynMVCrowd 展现出更强的泛化能力以及对跨场景领域转移至新颖真实场景的潜在收益,指示在真实世界部署和跨领域研究中的实际价值。
- 该数据集同时支持多视图和单图像任务,便于评估跨域性能与可转移性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。