[论文解读] SiamVGG: Visual Tracking using Deeper Siamese Networks
SiamVGG 提出基于修改后的 VGG-16 的更深的 Siamese 网络用于实时视觉跟踪,在大约 50 FPS 下达到最先进的准确性,并在 OTB 和 VOT 基准测试上表现出色且无需在线微调。
Recently, we have seen a rapid development of Deep Neural Network (DNN) based visual tracking solutions. Some trackers combine the DNN-based solutions with Discriminative Correlation Filters (DCF) to extract semantic features and successfully deliver the state-of-the-art tracking accuracy. However, these solutions are highly compute-intensive, which require long processing time, resulting unsecured real-time performance. To deliver both high accuracy and reliable real-time performance, we propose a novel tracker called SiamVGG\footnote{https://github.com/leeyeehoo/SiamVGG}. It combines a Convolutional Neural Network (CNN) backbone and a cross-correlation operator, and takes advantage of the features from exemplary images for more accurate object tracking. The architecture of SiamVGG is customized from VGG-16 with the parameters shared by both exemplary images and desired input video frames. We demonstrate the proposed SiamVGG on OTB-2013/50/100 and VOT 2015/2016/2017 datasets with the state-of-the-art accuracy while maintaining a decent real-time performance of 50 FPS running on a GTX 1080Ti. Our design can achieve 2% higher Expected Average Overlap (EAO) compared to the ECO and C-COT in VOT2017 Challenge.
研究动机与目标
- 在标准 GPU 上实现实时运行的高精度视觉跟踪的动力。
- 利用更深的、用于跟踪的 Siamese 主干以在不进行在线微调的情况下提高判别力。
- 设计一个全卷积的 Siamese 跟踪器,采用无填充的架构以获得更好的分数图。
- 在 OTB 与 VOT 数据集上展示最先进的性能,同时保持实时速度。
提出的方法
- 采用一个全卷积的 Siamese 网络,使用修改后的 VGG-16 主干作为 exemplar 与 search 图像的共享特征提取器。
- 定义交叉相关输出 f(z, x) = φ(z) ∗ φ(x)(移除偏置项),为目标定位生成分数图。
- 移除填充以避免特征图中的噪声,并仔细配置网络深度以保持映射尺寸。
- 在混合的 ILSVRC 和 Youtube-BB 数据上端到端训练(地面真实分数图),使用 SoftMargin 损失和 SGD 最优化。
- 将训练地面真相生成为一个 17×17 的分数图,基于到中心的曼哈顿距离设定正/负标签(R 半径)。
- 通过对搜索图像的小幅随机尺度抖动进行数据增强,不依赖旋转/翻转/颜色变换。
实验结果
研究问题
- RQ1一个更深的 Siamese 主干(SiamVGG)是否能在保持实时速度的同时超越早期的 Siamese 跟踪器(如 SiamFC)在准确性上的表现?
- RQ2移除填充并使用 VGG-16 主干是否改善跟踪的判别力和分数图质量?
- RQ3相较于其他实时 Siamese 跷踪器,SiamVGG 在标准基准(OTB、VOT)上的表现如何?
- RQ4将大规模分类数据集(ILSVRC)与 Youtube-BB 结合用于离线训练对跟踪性能有何影响?
主要发现
| 跟踪器 | OTB-2013 | OTB-50 | OTB-100 |
|---|---|---|---|
| SiamFC-3s | 0.607 | 0.516 | 0.582 |
| CFNet | 0.611 | 0.530 | 0.568 |
| RASNet | 0.670 | - | 0.642 |
| SA-Siam | 0.677 | 0.610 | 0.657 |
| DSiam | 0.656 | - | - |
| SiamRPN | - | - | 0.637 |
| SiamVGG | 0.665 | 0.610 | 0.654 |
- SiamVGG 在 OTB-100(0.654 AUC)上成为实时 Siamese 跟踪器中的最先进,并在 OTB-50(0.610)和 OTB-2013(0.665)上也有竞争力的结果。
- 在 VOT 基准上,SiamVGG 在 VOT2015 的 EAO(0.373)和 VOT2016 的 EAO(0.351)中排名第一,并保持强大重叠,在 VOT2017(EAO 0.286)中也有竞争力的结果。
- SiamVGG 提供实时性能,在 GTX 1080Ti 上的跟踪任务达到大约 50 FPS;一次比较中的专门实时评估显示 33.15 FPS。
- 消融研究表明,移除 VGG-16 主干中的批量归一化并与 ILSVRC 一起使用 Youtube-BB 数据显著提升性能( OTB-100 AUC 从 0.637 提升到 0.654)。
- 与 SiamFC 相比,SiamVGG 在 VOT2017 实时比较中提供约 51% 的 EAO 改进,同时保持相似的速度。
- 在 OTB 数据集上的表格比较(AUC):SiamVGG 0.665(OTB-2013),0.610(OTB-50),0.654(OTB-100)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。