[论文解读] CityFlow-NL: Tracking and Retrieval of Vehicles at City Scale by Natural Language Descriptions
CityFlow-NL 引入了一个城市尺度的多目标多摄像机跟踪基准,带有自然语言描述,并提供检索与跟踪基线,以及一个新颖的一次性 NL感知跟踪器(VTN)。
Natural Language (NL) descriptions can be one of the most convenient or the only way to interact with systems built to understand and detect city scale traffic patterns and vehicle-related events. In this paper, we extend the widely adopted CityFlow Benchmark with NL descriptions for vehicle targets and introduce the CityFlow-NL Benchmark. The CityFlow-NL contains more than 5,000 unique and precise NL descriptions of vehicle targets, making it the first multi-target multi-camera tracking with NL descriptions dataset to our knowledge. Moreover, the dataset facilitates research at the intersection of multi-object tracking, retrieval by NL descriptions, and temporal localization of events. In this paper, we focus on two foundational tasks: the Vehicle Retrieval by NL task and the Vehicle Tracking by NL task, which take advantage of the proposed CityFlow-NL benchmark and provide a strong basis for future research on the multi-target multi-camera tracking by NL description task.
研究动机与目标
- 扩展 CityFlow,使车辆目标带有自然语言描述,以实现多目标多摄像机跟踪(MTMC)、通过 NL 的检索以及时序事件定位。
- 定义并评估两个基础任务:基于 NL 描述的车辆检索(单视角)和基于 NL 描述的车辆跟踪(多帧定位)。
- 提供基线方法和一个专门的 NL 指导跟踪模型,为 NL 驱动的 MTMC 研究铺路。
提出的方法
- 通过对 666 辆目标车辆进行注释,使用 5,289 条 NL 描述,在 40 个校准摄像头上创建 CityFlow-NL。
- 提出两个任务:基于 NL 的车辆检索(单视角)和基于 NL 的车辆跟踪(多帧定位)。
- 开发一个基线的 Siamese 检索模型,将 NL 查询(BERT)与车辆裁剪(ResNet-50)嵌入以计算相似度用于检索。
- 扩展到一个跟踪框架:使用多目标跟踪器进行先跟踪再检索的基线;引入 Vehicle Tracking Network (VTN),包含存在分支和定位分支。
- 在 Faster-RCNN 基于定位的流水线中引入 NL-RoI Head 和 NL 相似度学习,用于端到端的 NL 指导跟踪。
- 使用检索的 MRR、Recall@K(检索)以及成功率对 IoU 阈值的 AUC 和归一化精度用于跟踪的评估。
实验结果
研究问题
- RQ1NL 描述在单视角视频中能多大程度上检索到正确的车辆轨迹?
- RQ2NL 描述是否能支持多视角视频中的目标时序与空间定位?
- RQ3在城市规模的 MTMC 场景中,基于 NL 指导的端到端跟踪器(VTN)是否优于 track-then-retrieve 的基线?
主要发现
- CityFlow-NL 是首个基于 NL 的 MTMC 数据集,也是按 NL 描述数量(5,289 条 NL 描述,覆盖 666 个目标)标注的最大的 NL 跟踪基准。
- 基线检索性能有限(MRR ≈ 0.027,Recall@5 ≈ 0.026,Recall@10 ≈ 0.049,Recall@25 ≈ 0.111)。
- VTN(Vehicle Tracking Network)在测试集上达到显著提升,AUC 为 5.93,归一化精度为 3.79,优于 track-then-retrieve 的基线。
- VLN NL-based RoI 定位和 NL 基于的存在性评分使得在线、端到端的 NL 指导跟踪在单 GPU 上约 20 fps 的速度成为可能。
- VTN 在检测阶段通过早期 NL 检索带来更高的召回率,但在对比明显的场景中也带来更多误检。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。