QUICK REVIEW

[论文解读] SiamVGG: Visual Tracking using Deeper Siamese Networks

Yuhong Li, Xiaofan Zhang|arXiv (Cornell University)|Feb 7, 2019

Video Surveillance and Tracking Methods参考文献 34被引用 50

一句话总结

SiamVGG 提出基于修改后的 VGG-16 的更深的 Siamese 网络用于实时视觉跟踪，在大约 50 FPS 下达到最先进的准确性，并在 OTB 和 VOT 基准测试上表现出色且无需在线微调。

ABSTRACT

Recently, we have seen a rapid development of Deep Neural Network (DNN) based visual tracking solutions. Some trackers combine the DNN-based solutions with Discriminative Correlation Filters (DCF) to extract semantic features and successfully deliver the state-of-the-art tracking accuracy. However, these solutions are highly compute-intensive, which require long processing time, resulting unsecured real-time performance. To deliver both high accuracy and reliable real-time performance, we propose a novel tracker called SiamVGG\footnote{https://github.com/leeyeehoo/SiamVGG}. It combines a Convolutional Neural Network (CNN) backbone and a cross-correlation operator, and takes advantage of the features from exemplary images for more accurate object tracking. The architecture of SiamVGG is customized from VGG-16 with the parameters shared by both exemplary images and desired input video frames. We demonstrate the proposed SiamVGG on OTB-2013/50/100 and VOT 2015/2016/2017 datasets with the state-of-the-art accuracy while maintaining a decent real-time performance of 50 FPS running on a GTX 1080Ti. Our design can achieve 2% higher Expected Average Overlap (EAO) compared to the ECO and C-COT in VOT2017 Challenge.

研究动机与目标

在标准 GPU 上实现实时运行的高精度视觉跟踪的动力。
利用更深的、用于跟踪的 Siamese 主干以在不进行在线微调的情况下提高判别力。
设计一个全卷积的 Siamese 跟踪器，采用无填充的架构以获得更好的分数图。
在 OTB 与 VOT 数据集上展示最先进的性能，同时保持实时速度。

提出的方法

采用一个全卷积的 Siamese 网络，使用修改后的 VGG-16 主干作为 exemplar 与 search 图像的共享特征提取器。
定义交叉相关输出 f(z, x) = φ(z) ∗ φ(x)（移除偏置项），为目标定位生成分数图。
移除填充以避免特征图中的噪声，并仔细配置网络深度以保持映射尺寸。
在混合的 ILSVRC 和 Youtube-BB 数据上端到端训练（地面真实分数图），使用 SoftMargin 损失和 SGD 最优化。
将训练地面真相生成为一个 17×17 的分数图，基于到中心的曼哈顿距离设定正/负标签（R 半径）。
通过对搜索图像的小幅随机尺度抖动进行数据增强，不依赖旋转/翻转/颜色变换。

实验结果

研究问题

RQ1一个更深的 Siamese 主干（SiamVGG）是否能在保持实时速度的同时超越早期的 Siamese 跟踪器（如 SiamFC）在准确性上的表现？
RQ2移除填充并使用 VGG-16 主干是否改善跟踪的判别力和分数图质量？
RQ3相较于其他实时 Siamese 跷踪器，SiamVGG 在标准基准（OTB、VOT）上的表现如何？
RQ4将大规模分类数据集（ILSVRC）与 Youtube-BB 结合用于离线训练对跟踪性能有何影响？

主要发现

跟踪器	OTB-2013	OTB-50	OTB-100
SiamFC-3s	0.607	0.516	0.582
CFNet	0.611	0.530	0.568
RASNet	0.670	-	0.642
SA-Siam	0.677	0.610	0.657
DSiam	0.656	-	-
SiamRPN	-	-	0.637
SiamVGG	0.665	0.610	0.654

SiamVGG 在 OTB-100（0.654 AUC）上成为实时 Siamese 跟踪器中的最先进，并在 OTB-50（0.610）和 OTB-2013（0.665）上也有竞争力的结果。
在 VOT 基准上，SiamVGG 在 VOT2015 的 EAO（0.373）和 VOT2016 的 EAO（0.351）中排名第一，并保持强大重叠，在 VOT2017（EAO 0.286）中也有竞争力的结果。
SiamVGG 提供实时性能，在 GTX 1080Ti 上的跟踪任务达到大约 50 FPS；一次比较中的专门实时评估显示 33.15 FPS。
消融研究表明，移除 VGG-16 主干中的批量归一化并与 ILSVRC 一起使用 Youtube-BB 数据显著提升性能（ OTB-100 AUC 从 0.637 提升到 0.654）。
与 SiamFC 相比，SiamVGG 在 VOT2017 实时比较中提供约 51% 的 EAO 改进，同时保持相似的速度。
在 OTB 数据集上的表格比较（AUC）：SiamVGG 0.665（OTB-2013），0.610（OTB-50），0.654（OTB-100）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。