Skip to main content
QUICK REVIEW

[论文解读] SiamVGG: Visual Tracking using Deeper Siamese Networks

Yuhong Li, Xiaofan Zhang|arXiv (Cornell University)|Feb 7, 2019
Video Surveillance and Tracking Methods参考文献 34被引用 50
一句话总结

SiamVGG 提出基于修改后的 VGG-16 的更深的 Siamese 网络用于实时视觉跟踪,在大约 50 FPS 下达到最先进的准确性,并在 OTB 和 VOT 基准测试上表现出色且无需在线微调。

ABSTRACT

Recently, we have seen a rapid development of Deep Neural Network (DNN) based visual tracking solutions. Some trackers combine the DNN-based solutions with Discriminative Correlation Filters (DCF) to extract semantic features and successfully deliver the state-of-the-art tracking accuracy. However, these solutions are highly compute-intensive, which require long processing time, resulting unsecured real-time performance. To deliver both high accuracy and reliable real-time performance, we propose a novel tracker called SiamVGG\footnote{https://github.com/leeyeehoo/SiamVGG}. It combines a Convolutional Neural Network (CNN) backbone and a cross-correlation operator, and takes advantage of the features from exemplary images for more accurate object tracking. The architecture of SiamVGG is customized from VGG-16 with the parameters shared by both exemplary images and desired input video frames. We demonstrate the proposed SiamVGG on OTB-2013/50/100 and VOT 2015/2016/2017 datasets with the state-of-the-art accuracy while maintaining a decent real-time performance of 50 FPS running on a GTX 1080Ti. Our design can achieve 2% higher Expected Average Overlap (EAO) compared to the ECO and C-COT in VOT2017 Challenge.

研究动机与目标

  • 在标准 GPU 上实现实时运行的高精度视觉跟踪的动力。
  • 利用更深的、用于跟踪的 Siamese 主干以在不进行在线微调的情况下提高判别力。
  • 设计一个全卷积的 Siamese 跟踪器,采用无填充的架构以获得更好的分数图。
  • 在 OTB 与 VOT 数据集上展示最先进的性能,同时保持实时速度。

提出的方法

  • 采用一个全卷积的 Siamese 网络,使用修改后的 VGG-16 主干作为 exemplar 与 search 图像的共享特征提取器。
  • 定义交叉相关输出 f(z, x) = φ(z) ∗ φ(x)(移除偏置项),为目标定位生成分数图。
  • 移除填充以避免特征图中的噪声,并仔细配置网络深度以保持映射尺寸。
  • 在混合的 ILSVRC 和 Youtube-BB 数据上端到端训练(地面真实分数图),使用 SoftMargin 损失和 SGD 最优化。
  • 将训练地面真相生成为一个 17×17 的分数图,基于到中心的曼哈顿距离设定正/负标签(R 半径)。
  • 通过对搜索图像的小幅随机尺度抖动进行数据增强,不依赖旋转/翻转/颜色变换。

实验结果

研究问题

  • RQ1一个更深的 Siamese 主干(SiamVGG)是否能在保持实时速度的同时超越早期的 Siamese 跟踪器(如 SiamFC)在准确性上的表现?
  • RQ2移除填充并使用 VGG-16 主干是否改善跟踪的判别力和分数图质量?
  • RQ3相较于其他实时 Siamese 跷踪器,SiamVGG 在标准基准(OTB、VOT)上的表现如何?
  • RQ4将大规模分类数据集(ILSVRC)与 Youtube-BB 结合用于离线训练对跟踪性能有何影响?

主要发现

跟踪器OTB-2013OTB-50OTB-100
SiamFC-3s0.6070.5160.582
CFNet0.6110.5300.568
RASNet0.670-0.642
SA-Siam0.6770.6100.657
DSiam0.656--
SiamRPN--0.637
SiamVGG0.6650.6100.654
  • SiamVGG 在 OTB-100(0.654 AUC)上成为实时 Siamese 跟踪器中的最先进,并在 OTB-50(0.610)和 OTB-2013(0.665)上也有竞争力的结果。
  • 在 VOT 基准上,SiamVGG 在 VOT2015 的 EAO(0.373)和 VOT2016 的 EAO(0.351)中排名第一,并保持强大重叠,在 VOT2017(EAO 0.286)中也有竞争力的结果。
  • SiamVGG 提供实时性能,在 GTX 1080Ti 上的跟踪任务达到大约 50 FPS;一次比较中的专门实时评估显示 33.15 FPS。
  • 消融研究表明,移除 VGG-16 主干中的批量归一化并与 ILSVRC 一起使用 Youtube-BB 数据显著提升性能( OTB-100 AUC 从 0.637 提升到 0.654)。
  • 与 SiamFC 相比,SiamVGG 在 VOT2017 实时比较中提供约 51% 的 EAO 改进,同时保持相似的速度。
  • 在 OTB 数据集上的表格比较(AUC):SiamVGG 0.665(OTB-2013),0.610(OTB-50),0.654(OTB-100)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。