[论文解读] SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks
SiamRPN++ 使用带有 ResNet 主干的深度 Siamese 跟踪器,采用空间感知采样以恢复平移不变性,结合分层特征聚合与深度卷积相关性,实现跨主要基准的实时速度下的最先进跟踪性能。
Siamese network based trackers formulate tracking as convolutional feature cross-correlation between target template and searching region. However, Siamese trackers still have accuracy gap compared with state-of-the-art algorithms and they cannot take advantage of feature from deep networks, such as ResNet-50 or deeper. In this work we prove the core reason comes from the lack of strict translation invariance. By comprehensive theoretical analysis and experimental validations, we break this restriction through a simple yet effective spatial aware sampling strategy and successfully train a ResNet-driven Siamese tracker with significant performance gain. Moreover, we propose a new model architecture to perform depth-wise and layer-wise aggregations, which not only further improves the accuracy but also reduces the model size. We conduct extensive ablation studies to demonstrate the effectiveness of the proposed tracker, which obtains currently the best results on four large tracking benchmarks, including OTB2015, VOT2018, UAV123, and LaSOT. Our model will be released to facilitate further studies based on this problem.
研究动机与目标
- 通过使深层骨干网络成为可能,推动缩小 Siamese 跟踪器与最先进跟踪器之间的精度差距。
- 识别深度 Siamese 架构为何难以实现(平移不变性),并提出解决方案。
- 开发一个端到端可训练的深特征 Siamese 跟踪器,以提高精度和效率。
- 提出逐层特征聚合,以利用用于跟踪的多层表示。
- 引入一种轻量级的交叉相关机制,以降低参数量并稳定训练。
提出的方法
- 分析 Siamese 跟踪中的严格平移不变性并展示填充引起的偏差。
- 使用空间感知采样进行端到端训练一个基于 ResNet 的 Siamese 跟踪器。
- 采用 ResNet-50 主干,进行步幅调整和膨胀卷积以实现密集预测。
- 通过加权融合将 conv3、conv4、conv5 的特征结合起来,引入逐层聚合。
- 提出 depth-wise cross-correlation (DW-XCorr) 以平衡参数并实现多通道相似度图。
实验结果
研究问题
- RQ1若通过端到端训练并使用合适的数据采样,深度网络(如 ResNet)是否能提升 Siamese 视觉跟踪?
- RQ2在深层骨干网络中使用填充时,如何保持或补偿平移不变性?
- RQ3结合多层特征(逐层聚合)是否能提升跟踪的定位与语义信息?
- RQ4深度卷积相关性方法是否在保持或提升跟踪精度的同时减少参数?
主要发现
- 使用空间感知采样进行训练能够实现基于 ResNet 的 Siamese 跟踪并带来显著性能提升。
- 通过对 conv3–conv5 进行逐层特征聚合,利用多尺度表示提升精度和鲁棒性。
- 深度卷积相关性降低了参数量并稳定了训练,同时产出有效的多通道相似度图。
- SiamRPN++ 在 OTB2015、VOT2018、UAV123、LaSOT 和 TrackingNet 数据集上取得了最先进的结果。
- 使用轻量级骨干的移动版本在不牺牲太多精度的前提下达到有竞争力的速度(最高 70 FPS)。
- 模型在 ResNet-50 下以 35 FPS 的实时运行,并在多样基准上保持强劲的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。