QUICK REVIEW

[论文解读] Performance Evaluation Methodology for Long-Term Visual Object Tracking

Alan Lukežič, Luka Čehovin Zajc|arXiv (Cornell University)|Jun 19, 2019

Video Surveillance and Tracking Methods被引用 2

一句话总结

本文提出了一种新颖的长期视觉目标跟踪性能评估方法与基准，引入了新的精确率、召回率和F1分数度量，这些度量推广了短期度量并能有效应对稀疏标注。核心贡献是将标准化、可扩展的评估框架集成至VOT工具包中，实现了对频繁目标消失和长序列场景下长期追踪器的可靠比较。

ABSTRACT

A long-term visual object tracking performance evaluation methodology and a benchmark are proposed. Performance measures are designed by following a long-term tracking definition to maximize the analysis probing strength. The new measures outperform existing ones in interpretation potential and in better distinguishing between different tracking behaviors. We show that these measures generalize the short-term performance measures, thus linking the two tracking problems. Furthermore, the new measures are highly robust to temporal annotation sparsity and allow annotation of sequences hundreds of times longer than in the current datasets without increasing manual annotation labor. A new challenging dataset of carefully selected sequences with many target disappearances is proposed. A new tracking taxonomy is proposed to position trackers on the short-term/long-term spectrum. The benchmark contains an extensive evaluation of the largest number of long-term tackers and comparison to state-of-the-art short-term trackers. We analyze the influence of tracking architecture implementations to long-term performance and explore various re-detection strategies as well as influence of visual model update strategies to long-term tracking drift. The methodology is integrated in the VOT toolkit to automate experimental analysis and benchmarking and to facilitate future development of long-term trackers.

研究动机与目标

解决长期视觉目标跟踪缺乏标准化评估协议的问题，这对推进追踪器开发至关重要。
克服现有短期追踪基准的局限性，这些基准无法有效评估长序列中重新检测与漂移鲁棒性。
开发能准确反映长期追踪场景下定位与检测精度的性能度量。
构建一个包含频繁目标消失及丰富属性标注的新基准数据集，以全面检验长期追踪能力。
将评估方法集成至VOT工具包中，实现未来长期追踪器开发的自动化、可复现且可扩展的基准测试。

提出的方法

提出一组专为长期追踪设计的新性能度量——追踪精确率、召回率和F1分数，推广短期度量的同时引入检测置信度与目标缺失报告机制。
设计一种支持稀疏标注（如每50帧或200帧标注一次）的评估协议，且不损失可靠性，使在仅需等效人工工作量的前提下，标注长达200倍于常规长度的序列成为可能。
构建一个新的基准数据集（LTB50），包含50个精心挑选的长序列，每个序列均包含多次目标消失，并标注了九种视觉属性以支持深入分析。
提出一种新的短期/长期追踪分类体系，根据追踪器的重新检测与模型更新策略，将其在一条连续谱上进行分类。
在VOT工具包中实现并集成所有评估组件，包括度量与协议，以支持自动化基准测试与可复现性。
对追踪器架构、重新检测策略及模型更新机制（如难负样本挖掘、保守更新）开展广泛消融研究，分析其对长期漂移与性能的影响。

实验结果

研究问题

RQ1如何设计长期追踪的性能度量，以更准确地反映定位精度与检测能力，特别是在目标频繁消失的情况下？
RQ2所提出的性能度量在多大程度上对稀疏时间标注具有鲁棒性？是否能支持在不增加标注成本的前提下构建极长的追踪序列？
RQ3高性能长期追踪器与低性能追踪器之间，在架构与策略层面的关键差异是什么？
RQ4重新检测策略与视觉模型更新机制如何影响长期追踪漂移与整体性能？
RQ5当前最先进的短期追踪器在多大程度上可被适配用于长期追踪？其中存在哪些性能权衡？

主要发现

所提出的追踪F1分数度量推广了短期度量，相较于现有度量，提供了更优的可解释性与对不同追踪行为的区分能力。
评估方法对标注稀疏性具有高度鲁棒性，仅需标注每50帧即可实现可靠的性能分析，且在每200帧标注时仍能保持一致的排名。
表现最佳的长期追踪器FCLT [38] 结合了判别相关滤波器用于短期追踪与检测，辅以多尺度模型更新与基于置信度的缺失预测。
令人惊讶的是，最先进的短期追踪器MDNet [28] 在长期追踪中取得了第二名的优异表现，凸显了保守特征更新与难负样本挖掘的价值。
完全遮挡与视场外消失是最具挑战性的属性，其次为相似物体与视角变化，表明了当前长期追踪器的关键失效模式。
基于CNN的检测器表现优于其他方法，因其在外观变化下具备鲁棒的定位能力，但在存在视觉相似干扰物时可能失效；判别相关滤波器则因速度与鲁棒性表现出色，尤其在训练得当时更具前景。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。