[论文解读] A Twofold Siamese Network for Real-Time Object Tracking
SA-Siam 使用一个两分支的孪生网络(外观与语义)分开训练,在语义分支中加入通道注意力模块,以在 OTB 上实现实时跟踪的最新水平,并在 VOT 基准上取得优异结果。
Observing that Semantic features learned in an image classification task and Appearance features learned in a similarity matching task complement each other, we build a twofold Siamese network, named SA-Siam, for real-time object tracking. SA-Siam is composed of a semantic branch and an appearance branch. Each branch is a similarity-learning Siamese network. An important design choice in SA-Siam is to separately train the two branches to keep the heterogeneity of the two types of features. In addition, we propose a channel attention mechanism for the semantic branch. Channel-wise weights are computed according to the channel activations around the target position. While the inherited architecture from SiamFC \cite{SiamFC} allows our tracker to operate beyond real-time, the twofold design and the attention mechanism significantly improve the tracking performance. The proposed SA-Siam outperforms all other real-time trackers by a large margin on OTB-2013/50/100 benchmarks.
研究动机与目标
- 利用互补的语义与外观特征实现鲁棒的实时跟踪的动机与意义。
- 提出一个两分支孪生架构,分别训练以适应异质特征。
- 在语义分支中引入通道注意力机制以实现目标自适应。
- 在保持实时性能的同时提升判别力与泛化能力。
- 在标准跟踪基准(OTB、VOT)上进行评估并进行消融研究以证明设计选择。
提出的方法
- 两条全卷积的孪生分支:外观(A-Net)和语义(S-Net)。
- 外观分支从头训练以进行相似性学习;语义分支使用预训练的 ImageNet 网络并固定参数。
- 语义特征通过一个 1x1 ConvNet 与一个通道加权(注意力)模块后的融合,该模块从 z^s 与上下文计算通道权重。
- 整体热力图是两个分支热力图的加权和: h = lambda*h_a + (1-lambda)*h_s,lambda 在验证集上调优。
- 来自语义分支的多层级特征(conv4/conv5)进行融合;注意力模块对目标特征应用通道维度的权重。
- 使用三尺度输入以应对尺度变化;在 ILSVRC-2015 视频数据集上离线训练,每个分支使用逻辑损失。
实验结果
研究问题
- RQ1异质的语义和外观特征是否可以在不在线更新的情况下改善实时跟踪?
- RQ2将两个分支分别训练是否能保留特征异质性并提升性能?
- RQ3在语义特征上应用通道注意力机制是否能提升判别性与跟踪的鲁棒性?
- RQ4在标准基准上适当权重地融合两分支的影响是什么?
主要发现
- SA-Siam 在 OTB-2013/50/100 基准上的 AUC 与精确度均超越所有其他实时跟踪器。
- SA-Siam 在 VOT 基准上达到最先进性能,同时保持实时速度(约 50 fps)。
- 消融实验表明语义和外观分支提供互补的优势;注意力机制与多层级语义特征显著提升结果。
- 两分支的联合训练不如分开训练,支持异质性设计。
- 在语义分支上应用通道注意力在使用多层级语义特征时尤其带来明显增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。