QUICK REVIEW

[论文解读] Long-term Tracking in the Wild: A Benchmark

Jack Valmadre, Luca Bertinetto|arXiv (Cornell University)|Mar 26, 2018

Video Surveillance and Tracking Methods参考文献 6被引用 21

一句话总结

本文提出了OxUvA基准，这是一个大规模、长期跟踪数据集，包含366个视频序列，总计14小时视频，目标频繁消失。该研究在定位精度和目标存在/消失检测两方面评估跟踪器，结果表明大多数短期跟踪器因模型漂移在长序列中失效，而SINT和MDNet等方法在长时间跟踪和遮挡情况下表现出更强的鲁棒性。

ABSTRACT

We introduce the OxUvA dataset and benchmark for evaluating single-object tracking algorithms. Benchmarks have enabled great strides in the field of object tracking by defining standardized evaluations on large sets of diverse videos. However, these works have focused exclusively on sequences that are just tens of seconds in length and in which the target is always visible. Consequently, most researchers have designed methods tailored to this "short-term" scenario, which is poorly representative of practitioners' needs. Aiming to address this disparity, we compile a long-term, large-scale tracking dataset of sequences with average length greater than two minutes and with frequent target object disappearance. The OxUvA dataset is much larger than the object tracking datasets of recent years: it comprises 366 sequences spanning 14 hours of video. We assess the performance of several algorithms, considering both the ability to locate the target and to determine whether it is present or absent. Our goal is to offer the community a large and diverse benchmark to enable the design and evaluation of tracking methods ready to be used "in the wild". The project website is http://oxuva.net

研究动机与目标

为填补现有跟踪基准的空白，后者集中于目标始终可见的短期跟踪，本研究旨在创建一个反映真实世界应用的长期跟踪基准。
构建一个大规模数据集（14小时，150万帧），包含长序列（平均2.4分钟）和频繁目标消失，以更真实地反映实际跟踪场景。
设计一种新的评估协议，同时衡量定位精度和目标存在或消失的检测能力，超越传统的IoU指标。
引入连续属性（如速度、尺度、干扰物）而非二值属性，以实现对不同条件下跟踪器性能的细粒度分析。
通过将数据划分为开发集和测试集，并仅通过限速服务器提供测试标签，促进模型泛化，防止对基准的过拟合。

提出的方法

数据集从YouTube视频中收集，选择观看量较低的视频（作为未经剪辑的真实世界内容的代理），重点关注目标消失率高的序列。
以1Hz的频率对序列进行标注，使用边界框标注，优先保证覆盖范围而非标签密度，以确保在14小时视频中的可扩展性。
提出一种新颖的评估指标，结合真正例率（TPR）和真负例率（TNR），以评估定位性能和存在/消失检测性能。
对每帧或每段视频计算连续属性（如相对速度、尺度变化、干扰物数量、目标大小、遮挡程度、序列长度），并进行分箱处理以支持性能分析。
测试集通过限速评估服务器隐藏，防止对基准的超参数过拟合。
在测试集上评估了多种最先进跟踪器（如SiamFC+、MDNet、ECO-HC、TLD），以评估其长期鲁棒性及失效模式。

实验结果

研究问题

RQ1现有跟踪算法在平均2.4分钟的长序列（频繁目标消失）中表现如何？
RQ2跟踪器在长时间跟踪过程中，其定位精度和存在性检测能力能维持到何种程度？
RQ3在长期场景中，哪些因素——如目标速度、尺度变化、干扰物数量或遮挡——最显著地降低跟踪器性能？
RQ4与二值属性相比，使用连续属性如何提升性能分析的可解释性和粒度？
RQ5大规模、稀疏标注的数据集（1Hz）是否能在无需密集人工标注的情况下提供可靠的评估？

主要发现

当目标消失超过帧数的10%时，所有跟踪器的性能均出现显著下降，表明这是长期跟踪中的关键挑战。
依赖局部搜索的跟踪器（如SiamFC+、ECO-HC）在目标速度增加时性能迅速下降，而TLD在高速运动下表现出最强的鲁棒性。
在6倍尺度变化时性能急剧下降，表明在处理极端尺度变化方面存在显著性能差距，尤其在6倍尺度变化的分箱中，包含大量视频。
EBT和LCT等方法在存在同类型两个干扰物时受到显著影响，表明全图搜索中可能出现混淆，而其他方法则保持鲁棒。
SINT和MDNet表现出卓越的长期稳定性，性能可维持超过三分钟，而大多数跟踪器（如MDNet、ECO-HC）在几分钟后迅速退化。
目标大小在占图像面积0.2时性能达到峰值，MDNet和LCT在更大目标尺寸下仍能保持性能，表明其具有更好的可扩展性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。