[论文解读] Describe and Attend to Track: Learning Natural Language guided Structural Representation and Visual Attention for Object Tracking
本文提出了一种名为DAT(Describe and Attend to Track)的新颖视觉追踪框架,通过整合自然语言描述与图卷积网络(GCN),以增强特征表示和视觉注意力。通过利用GCN对训练样本之间的关系进行建模,并采用语言引导的三元组损失,该方法提升了在遮挡和外观变化情况下的鲁棒性,在五个基准数据集上实现了最先进性能,使用3层GCN时在OTB2013上的成功率达到67.1%。
The tracking-by-detection framework requires a set of positive and negative training samples to learn robust tracking models for precise localization of target objects. However, existing tracking models mostly treat different samples independently while ignores the relationship information among them. In this paper, we propose a novel structure-aware deep neural network to overcome such limitations. In particular, we construct a graph to represent the pairwise relationships among training samples, and additionally take the natural language as the supervised information to learn both feature representations and classifiers robustly. To refine the states of the target and re-track the target when it is back to view from heavy occlusion and out of view, we elaborately design a novel subnetwork to learn the target-driven visual attentions from the guidance of both visual and natural language cues. Extensive experiments on five tracking benchmark datasets validated the effectiveness of our proposed method.
研究动机与目标
- 解决现有检测-追踪方法将训练样本独立处理、忽略样本间关系的问题。
- 提升视觉追踪在严重遮挡、大形变及目标离屏等场景下的鲁棒性。
- 利用自然语言描述作为高层语义监督,指导结构化特征学习与注意力生成。
- 设计一种以目标为中心的全局注意力机制,实现在追踪失败后有效重新检测。
- 整合局部与全局候选区域生成策略,以提升追踪精度与鲁棒性。
提出的方法
- 构建一个图结构,其中每个训练样本为一个节点,并利用图卷积网络(GCN)在样本间传播并优化配对关系特征。
- 使用结合自然语言嵌入的三元组损失函数,引导结构化表征的学习,增强判别能力。
- 设计一种新型子网络GPGNet,通过结合视觉块与自然语言规范,生成与目标相关的视觉注意力图。
- 将来自全局注意力区域的特征与局部候选区域特征拼接,并输入二分类器以完成最终追踪决策。
- 采用端到端训练方案,联合优化基于GCN的结构化表征与注意力引导的候选区域生成。
- 使用轻量级卷积编码器高效提取帧、语言和目标块的特征,随后进行特征拼接与上采样,以生成注意力图。
实验结果
研究问题
- RQ1通过图结构建模样本间关系,能否提升视觉追踪特征的判别能力?
- RQ2自然语言监督能否增强追踪模型在遮挡与外观变化等挑战性条件下的鲁棒性?
- RQ3基于视觉与语言线索的目标驱动视觉注意力,能否提升目标丢失后的重新检测能力?
- RQ4全局与局部搜索策略的融合对长期追踪基准的追踪性能有何影响?
- RQ5在视觉追踪中,为平衡准确率与训练效率,GCN的最佳层数是多少?
主要发现
- 当使用5层GCN时,所提出的DAT追踪器在OTB2013基准上实现了67.1%的成功率,优于基线方法pyMDNet(65.4%)及其他最先进方法。
- 在包含46个OTB100序列的挑战性子数据集上,模型实现了91.8%的精度与65.2%的成功率,显著优于pyMDNet(86.5%精度,64.2%成功率)。
- 使用3层GCN在性能与训练时间之间取得最佳平衡,OTB2013上的成功率为0.663,略高于2层(0.654),与5层(0.671)相当。
- 语言引导的三元组损失与基于GCN的结构建模相结合,显著提升了性能,尤其在处理困难正样本与负样本方面表现突出。
- 以目标为中心的全局注意力机制能有效恢复严重遮挡与离屏事件后的目标,如长期追踪序列中性能提升所证实。
- 所提出的GPGNet子网络成功生成聚焦于目标对象的视频特定注意力图,不同于通用显著性图,可实现有效的全局候选区域生成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。