QUICK REVIEW

[论文解读] TrackingNet: A Large-Scale Dataset and Benchmark for Object Tracking in the Wild

Matthias Müller, Adel Bibi|arXiv (Cornell University)|Mar 28, 2018

Video Surveillance and Tracking Methods参考文献 29被引用 49

一句话总结

TrackingNet 提供了首个大规模、密集标注的跟踪数据集（30k 个视频，14M 帧），具有被隔离的测试集和在线评测，便于训练深度跟踪器并进行公平基准评估。研究表明在 TrackingNet 上进行预训练可以提升在其他数据集上的表现，并且野外跟踪仍然具有挑战性。

ABSTRACT

Despite the numerous developments in object tracking, further development of current tracking algorithms is limited by small and mostly saturated datasets. As a matter of fact, data-hungry trackers based on deep-learning currently rely on object detection datasets due to the scarcity of dedicated large-scale tracking datasets. In this work, we present TrackingNet, the first large-scale dataset and benchmark for object tracking in the wild. We provide more than 30K videos with more than 14 million dense bounding box annotations. Our dataset covers a wide selection of object classes in broad and diverse context. By releasing such a large-scale dataset, we expect deep trackers to further improve and generalize. In addition, we introduce a new benchmark composed of 500 novel videos, modeled with a distribution similar to our training dataset. By sequestering the annotation of the test set and providing an online evaluation server, we provide a fair benchmark for future development of object trackers. Deep trackers fine-tuned on a fraction of our dataset improve their performance by up to 1.6% on OTB100 and up to 1.7% on TrackingNet Test. We provide an extensive benchmark on TrackingNet by evaluating more than 20 trackers. Our results suggest that object tracking in the wild is far from being solved.

研究动机与目标

提供一个大规模、密集标注的跟踪数据集以训练深度跟踪器。
引入一个公平的、被隔离的测试集和在线评测服务器用于基准评测。
分析数据集特征与标注策略以促进密集跟踪标签的生成。
在现代跟踪器上提供扩展基准并评估跨数据集迁移。
证明在 TrackingNet 上进行预训练对提高在其他数据集上的表现的影响。

提出的方法

从 YouTube Bounding Boxes（YT-BB）组装 TrackingNet，创建包含 30,132 个视频和 14,205,677 帧的训练集，使用追踪器密集填充 1 Hz 注释。
创建测试集，来自 YouTube CC 授权内容（YT-CC）的 511 个视频，通过亚马逊 Mechanical Turk 使用确定性规则和基于 VATIC 的标注工具进行注释。
为测试视频定义一个 15 属性的模式，其中 5 个自动属性和 10 个人工检查属性，用以表征跟踪挑战。
在在线服务器上使用 One Pass Evaluation（OPE）评估跟踪器，报告基于 IoU 的成功率（AUC）、精度以及归一化精度指标（Pnorm），以考虑尺度因素。
通过在 TrainingNet 和 TestNet 上评估多样化的跟踪器（基于 CF、深度学习、Siamese 等）来提供扩展基准。
研究在 TrackingNet 上进行训练的影响，通过在数据子集上重新训练一个 SiameseFC 基础的跟踪器并衡量性能提升。

实验结果

研究问题

RQ1一个真正大规模、密集标注的跟踪数据集是否能提升深度跟踪器的训练与在野外的泛化？
RQ2具有匹配分布的被隔离测试集是否能为跟踪器提供公平、可比的基准？
RQ3TrackingNet 的特征和属性有哪些能反映现实世界的跟踪难点？
RQ4在 TrackingNet 上的预训练如何迁移到并提升其他基准如 OTB100 的性能？
RQ5在 TrackingNet 上评估时，不同跟踪方法的性能格局如何？

主要发现

TrackingNet 含有 30,132 个训练视频和 511 个测试视频，总计 14,205,677 帧，带有竖直边界框的注释。
被隔离的测试集和在线评测服务器实现了训练数据之外的公平基准。
在 TrackingNet 上对深度跟踪器进行预训练可以提升其在其他数据集上的表现，TrackingNet 测试集最高提升可达 1.7%，OTB100 上最高可达 1.6%。
在评估的 20 多个跟踪器中，MDNet（在线微调）在 TrackingNet 上达到最高性能，但运行时较慢；更新的深度跟踪器（CFNet、SiameseFC）受益于 TrackingNet 的预训练。
TrackingNet 的评测显示野外对象跟踪仍未解决，测试集的最高性能约在 60% 的成功率，低于像 OTB 这样的传统基准。
作者提供了按属性的分析（例如平面内旋转、低分辨率、完全遮挡）以指示跟踪器最困难的环节。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。