[论文解读] PathTrack: Fast Trajectory Annotation with Path Supervision
本文提出 PathTrack,一种基于路径监督的新型快速轨迹标注框架,用于视频中的目标轨迹标注,标注人员可实时追踪目标路径。通过从这些弱路径标注中进行优化,并结合目标检测,该方法可生成密集且精确的边界框轨迹。主要贡献在于构建了一个33倍大的MOT数据集(包含720段视频中的15,380条行人轨迹),显著提升了追踪性能,在微调MOT15最佳追踪器时,ID切换减少18%,轨迹碎片减少5%。
Progress in Multiple Object Tracking (MOT) has been historically limited by the size of the available datasets. We present an efficient framework to annotate trajectories and use it to produce a MOT dataset of unprecedented size. In our novel path supervision the annotator loosely follows the object with the cursor while watching the video, providing a path annotation for each object in the sequence. Our approach is able to turn such weak annotations into dense box trajectories. Our experiments on existing datasets prove that our framework produces more accurate annotations than the state of the art, in a fraction of the time. We further validate our approach by crowdsourcing the PathTrack dataset, with more than 15,000 person trajectories in 720 sequences. Tracking approaches can benefit training on such large-scale datasets, as did object recognition. We prove this by re-training an off-the-shelf person matching network, originally trained on the MOT15 dataset, almost halving the misclassification rate. Additionally, training on our data consistently improves tracking results, both on our dataset and on MOT15. On the latter, we improve the top-performing tracker (NOMT) dropping the number of IDSwitches by 18% and fragments by 5%.
研究动机与目标
- 为解决现有数据集成本高昂且规模有限所导致的多目标跟踪(MOT)瓶颈问题。
- 开发一种更快、更高效的标注方法,利用视频播放过程中的人类运动来生成轨迹数据。
- 构建一个大规模、多样化的MOT数据集,适用于数据驱动的追踪系统训练。
- 验证在训练深度匹配模型用于MOT时,高数量、低精度数据是否能优于高精度、低数量数据。
提出的方法
- 标注人员在观看视频时使用光标实时松散追踪目标路径,最大限度减少空闲时间。
- 系统以路径标注和目标检测作为输入,通过全局优化推断出密集且精确的边界框轨迹。
- 该优化方法将帧间检测结果关联,从而从弱路径监督中生成高精度轨迹。
- 该方法专为最快轨迹标注设计,尤其适用于大规模、低精度数据采集。
- PathTrack数据集通过亚马逊机械 Turk 众包平台,利用此路径监督流程收集。
- 在PathTrack上训练了判别性行人匹配网络(TRID),并在PathTrack与MOT15上进行了评估。
实验结果
研究问题
- RQ1路径监督是否能显著减少标注时间,同时保持轨迹精度?
- RQ2与较小规模、高精度数据集相比,在大规模、高数量MOT数据集上训练是否能提升追踪性能?
- RQ3能否有效将路径监督的弱标注转化为密集且精确的边界框轨迹?
- RQ4MOT数据量是否存在性能饱和点,还是数据越多结果越优?
主要发现
- PathTrack 生成的数据集比现有基准大33倍,包含720段视频和15,380条行人轨迹。
- 在PathTrack上训练行人匹配模型,相比仅在MOT15上训练,误分类率降低45%。
- 使用PathTrack数据微调MOT15中表现最佳的追踪器(NOMT)后,在MOT15测试集上ID切换减少18%,轨迹碎片减少5%。
- 在相同标注时间预算下,采用路径监督的高数量标注策略实现88%的匹配准确率,比使用LabelMe的高精度策略高出10个百分点。
- 优化框架能从路径标注中生成精确的边界框轨迹,证明其在所有质量等级下均为最快轨迹标注方法。
- 结果表明,在MOT中学习鲁棒的检测-关联模型时,训练数据的数量比质量更具影响力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。