Skip to main content
QUICK REVIEW

[论文解读] Distractor-aware Siamese Networks for Visual Object Tracking

Zheng Zhu, Qiang Wang|arXiv (Cornell University)|Aug 18, 2018
Video Surveillance and Tracking Methods参考文献 29被引用 85
一句话总结

本文提出 DaSiamRPN,一种面向视觉跟踪的干扰源感知孪生网络,通过在离线训练中引入语义负样本、在在线推断中加入干扰源感知模块,以及用于长时跟踪的本地到全球策略,实现了最先进的结果和较高的速度。

ABSTRACT

Recently, Siamese networks have drawn great attention in visual tracking community because of their balanced accuracy and speed. However, features used in most Siamese tracking approaches can only discriminate foreground from the non-semantic backgrounds. The semantic backgrounds are always considered as distractors, which hinders the robustness of Siamese trackers. In this paper, we focus on learning distractor-aware Siamese networks for accurate and long-term tracking. To this end, features used in traditional Siamese trackers are analyzed at first. We observe that the imbalanced distribution of training data makes the learned features less discriminative. During the off-line training phase, an effective sampling strategy is introduced to control this distribution and make the model focus on the semantic distractors. During inference, a novel distractor-aware module is designed to perform incremental learning, which can effectively transfer the general embedding to the current video domain. In addition, we extend the proposed approach for long-term tracking by introducing a simple yet effective local-to-global search region strategy. Extensive experiments on benchmarks show that our approach significantly outperforms the state-of-the-arts, yielding 9.6% relative gain in VOT2016 dataset and 35.9% relative gain in UAV20L dataset. The proposed tracker can perform at 160 FPS on short-term benchmarks and 110 FPS on long-term benchmarks.

研究动机与目标

  • 通过解决背景中的语义干扰源来提升孪生跟踪器的鲁棒性。
  • 平衡离线训练数据,使其关注语义负样本和更难的干扰源。
  • 实现在线增量学习,使通用嵌入适应视频领域。
  • 将该方法扩展到长期跟踪,采用有效的本地到全球搜索策略。

提出的方法

  • 分析传统孪生跟踪特征的局限性,识别背景/干扰源不平衡问题。
  • 从检测数据集创建多样的正样本对,以及来自同一/不同类别的语义负样本对。
  • 引入针对视觉跟踪的数据增强,包括运动模糊。
  • 发展一个干扰源感知的增量学习模块,通过干扰模板重新加权相似度(方程式 2/3),并实现在线更新(方程式 4)。
  • 通过本地到全球的搜索区域策略以及在线失败检测开关扩展到长期跟踪。
  • 通过利用互相关性质实现高效计算,进行快速的干扰源感知重新排序。

实验结果

研究问题

  • RQ1背景/背景样式的干扰源如何影响孪生跟踪器表示及性能?
  • RQ2增加语义负样本对与干扰源感知在线更新是否能在不牺牲速度的前提下提升鲁棒性?
  • RQ3本地到全球搜索策略在视野外和遮挡条件下是否能提升长期跟踪性能?

主要发现

  • DaSiamRPN在短期和长期基准上取得显著提升,包括在 VOT2016 的 EAO 相对提升 9.6% 和 UAV20L 的 AUC 提升 61.7%。
  • DaSiamRPN 在短期基准下运行速度为 160 FPS,在长期基准下为 110 FPS。
  • 干扰源感知在线模块能有效将通用嵌入迁移到当前视频域,并提升对干扰源的鲁棒性。
  • 在 UAV20L 上,DaSiamRPN 在 AUC 相对提升 35.9%、在精度提升 34.3%。
  • DaSiamRPN 在 VOT2017 的已报道实时跟踪器中获得第一名(EAO 0.326)。
  • 该方法在 VOT、UAV 和 OTB 数据集上对 SiamRPN 及其他基线表现出持续改进。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。