Skip to main content
QUICK REVIEW

[论文解读] LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking

Heng Fan, Liting Lin|arXiv (Cornell University)|Sep 20, 2018
Video Surveillance and Tracking Methods参考文献 54被引用 22
一句话总结

本文提出了 LaSOT,一个大规模、高质量的长时单目标跟踪基准,包含1,400个视频序列,超过350万帧密集标注。该基准支持深度跟踪模型的稳健训练与评估,尽管最先进的方法如 MDNet 和 VITAL 分别取得了0.373和0.360的精度得分,结果仍显示存在显著的提升空间。

ABSTRACT

In this paper, we present LaSOT, a high-quality benchmark for Large-scale Single Object Tracking. LaSOT consists of 1,400 sequences with more than 3.5M frames in total. Each frame in these sequences is carefully and manually annotated with a bounding box, making LaSOT the largest, to the best of our knowledge, densely annotated tracking benchmark. The average video length of LaSOT is more than 2,500 frames, and each sequence comprises various challenges deriving from the wild where target objects may disappear and re-appear again in the view. By releasing LaSOT, we expect to provide the community with a large-scale dedicated benchmark with high quality for both the training of deep trackers and the veritable evaluation of tracking algorithms. Moreover, considering the close connections of visual appearance and natural language, we enrich LaSOT by providing additional language specification, aiming at encouraging the exploration of natural linguistic feature for tracking. A thorough experimental evaluation of 35 tracking algorithms on LaSOT is presented with detailed analysis, and the results demonstrate that there is still a big room for improvements.

研究动机与目标

  • 为解决长时视觉跟踪器训练与评估中缺乏大规模、高质量数据集的问题。
  • 克服现有基准的局限性,包括序列长度较短、标注稀疏以及类别不平衡问题。
  • 提供一个标准化的大规模基准,以提升真实场景下跟踪器评估的可靠性与真实性。
  • 通过为每个序列添加语言学标注,促进视觉与语言特征联合学习在跟踪中的研究。
  • 通过专用的大规模训练与测试平台,支持基于深度学习的跟踪器开发。

提出的方法

  • 精选1,400个视频序列,平均长度为2,506帧,总计超过350万帧,所有帧均经过人工精确标注边界框。
  • 设计基准时强调长时跟踪,包含目标频繁消失与重新出现的序列。
  • 为每个序列引入语言学标注,以促进多模态(视觉与语言)特征学习在跟踪中的研究。
  • 将数据集划分为训练集与测试集,以支持两种协议下的模型训练与无偏评估。
  • 使用标准指标(精度、归一化精度与成功率)在基准上评估35种最先进的跟踪算法。
  • 在LaSOT训练集上对SiamFC与MDNet进行微调实验,以证明大规模、任务特定数据带来的性能提升。

实验结果

研究问题

  • RQ1大规模、密集标注的基准是否能提升长时跟踪场景下深度视觉跟踪器的训练与评估效果?
  • RQ2视觉与语言特征在目标遮挡与外观变化等复杂序列中联合使用,能在多大程度上提升跟踪鲁棒性?
  • RQ3与以往基准相比,现有跟踪算法在强调长时跟踪与高标注质量的基准上表现如何?
  • RQ4在LaSOT上微调深度跟踪器是否能带来相对于在ImageNet或其他通用数据集预训练模型的可测量性能提升?
  • RQ5当前跟踪器在具有多样化视觉与语言挑战的真实长时基准上,其关键失败模式是什么?

主要发现

  • LaSOT 是目前已知规模最大、标注密集且质量最高的基准,包含1,400个序列与超过350万帧。
  • MDNet 与 VITAL 在协议I下表现最佳,精度得分分别为0.373与0.360。
  • SiamFC 的精度得分为0.339,成功率得分为0.336,展现出准确率与实时效率的良好平衡。
  • 在LaSOT上微调SiamFC后,其在OTB-2013与OTB-2015上的性能持续提升,精度提高1.3%,成功率提高2.0%。
  • 评估结果表明,当前跟踪器与基准潜力之间存在显著性能差距,表明仍有巨大改进空间。
  • 语言学标注的引入为多模态跟踪研究开辟了新方向,但其有效整合仍是开放挑战。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。