[论文解读] Siamese Instance Search for Tracking
一种跟踪方法,使用预训练的 Siamese 网络从外部视频学习通用的补丁匹配函数,并在简单、无更新的跟踪器中应用它以在后续帧定位初始目标。它在 OTB 上实现了最先进的性能,无需模型更新或遮挡处理。
In this paper we present a tracker, which is radically different from state-of-the-art trackers: we apply no model updating, no occlusion detection, no combination of trackers, no geometric matching, and still deliver state-of-the-art tracking performance, as demonstrated on the popular online tracking benchmark (OTB) and six very challenging YouTube videos. The presented tracker simply matches the initial patch of the target in the first frame with candidates in a new frame and returns the most similar patch by a learned matching function. The strength of the matching function comes from being extensively trained generically, i.e., without any data of the target, using a Siamese deep neural network, which we design for tracking. Once learned, the matching function is used as is, without any adapting, to track previously unseen targets. It turns out that the learned matching function is so powerful that a simple tracker built upon it, coined Siamese INstance search Tracker, SINT, which only uses the original observation of the target from the first frame, suffices to reach state-of-the-art performance. Further, we show the proposed tracker even allows for target re-identification after the target was absent for a complete video shot.
研究动机与目标
- 从外部视频数据学习一个通用、鲁棒的补丁匹配函数,能够处理跟踪中的常见外观变化。
- 开发一个简单的跟踪推理,使用初始帧中的目标而无需对每个目标进行适应。
- 证明一个经过良好训练的匹配函数就足以实现具有竞争力或最先进的跟踪性能。
- 证明该方法在视频中的目标缺失后仍能实现再识别。
提出的方法
- 使用双流 Siamese 网络(Siamese Invariance Network)来学习补丁的通用匹配函数。
- 使用区域性池化对整张图像进行处理,以高效地比较多个候选补丁。
- 融合来自多层 CNN 的特征,并在损失前应用 L2 归一化以稳定表征。
- 使用边距对比损失 D = ||f(x_j) - f(x_k)||_2, y_jk ∈ {0,1}, 和边距 ε 进行训练,使用外部视频数据(ALOV)且与评估数据无重叠。
- 在上一帧预测周围使用基于半径的采样生成候选框,并使用固定回归器对框进行细化。
- 通过选择与初始帧目标匹配最充分的候选补丁来跟踪,使用 m(x_t0, x_jt) = f(x_t0)^T f(x_jt)。
实验结果
研究问题
- RQ1在外部视频上训练的通用学习补丁匹配函数,是否能够在无需在线适应的情况下稳健地跟踪未见目标?
- RQ2在使用简单、无更新的跟踪器时,基于 Siamese 网络的匹配函数是否足以实现准确的逐帧定位?
- RQ3哪些架构选择(深度、池化、多层特征)在不进行目标特定更新的情况下能最大化跟踪精度?
- RQ4这种方法能否在视频中长时间缺席后实现目标再识别?
- RQ5在像 OTB 这样的标准基准上,所提方法与当代跟踪器相比如何?
主要发现
- 在外部数据上训练的 Siamese 网络在跟踪匹配函数方面显著优于 ImageNet 预训练的基线。
- 移除最大池化并使用多层特征(conv4/conv5/fc6)和更深的网络可获得最佳定位和精度。
- SINT 在 OTB 上以简单的在线推断实现了最先进的性能,SINT+ 通过自适应采样和光流进一步提升。
- 该方法在较长的视频序列中对目标缺席后的再识别表现出鲁棒性。
- 在外部 YouTube 序列上,SINT 在 AUC 分数上超过 MEEM 和 MUSTer,表明对具有挑战性变形的鲁棒性良好泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。