Skip to main content
QUICK REVIEW

[论文解读] Deformable Siamese Attention Networks for Visual Object Tracking

Yuechen Yu, Yilei Xiong|arXiv (Cornell University)|Apr 14, 2020
Video Surveillance and Tracking Methods参考文献 44被引用 25
一句话总结

本文提出 SiamAttn,一种可变形孪生注意力网络,通过在孪生架构内联合建模自注意力与交叉注意力,提升视觉目标跟踪性能。通过自注意力学习空间与通道维度的上下文信息,并通过交叉注意力聚合模板与搜索特征之间的依赖关系,该方法增强了特征的判别性表示,在六个基准测试上实现了实时推理的最先进性能。

ABSTRACT

Siamese-based trackers have achieved excellent performance on visual object tracking. However, the target template is not updated online, and the features of the target template and search image are computed independently in a Siamese architecture. In this paper, we propose Deformable Siamese Attention Networks, referred to as SiamAttn, by introducing a new Siamese attention mechanism that computes deformable self-attention and cross-attention. The self attention learns strong context information via spatial attention, and selectively emphasizes interdependent channel-wise features with channel attention. The cross-attention is capable of aggregating rich contextual inter-dependencies between the target template and the search image, providing an implicit manner to adaptively update the target template. In addition, we design a region refinement module that computes depth-wise cross correlations between the attentional features for more accurate tracking. We conduct experiments on six benchmarks, where our method achieves new state of-the-art results, outperforming the strong baseline, SiamRPN++ [24], by 0.464->0.537 and 0.415->0.470 EAO on VOT 2016 and 2018. Our code is available at: https://github.com/msight-tech/research-siamattn.

研究动机与目标

  • 解决孪生跟踪器中固定目标模板的局限性,以应对外观变化与遮挡问题。
  • 通过整合复杂背景与干扰物的上下文信息,提升特征的判别能力。
  • 克服标准孪生网络中特征独立提取的缺陷,通过模板与搜索特征之间的交叉注意力实现信息交互。
  • 在显著提升跟踪精度的同时,保持在挑战性基准上的实时推理速度。
  • 设计区域细化模块,通过注意力特征的逐通道互相关运算,提升定位精度。

提出的方法

  • 提出一种新型孪生注意力机制,结合可变形自注意力(空间与通道维度)以及模板与搜索特征之间的交叉注意力。
  • 应用可变形卷积与池化层,以更好地捕捉空间变化的特征并提升特征对齐能力。
  • 实现区域细化模块,对注意力增强后的特征计算逐通道互相关,以优化边界框与掩码预测。
  • 使用包含 LaSOT、TrackingNet、COCO 与 YouTube-VOS 等带掩码标注的大规模视频数据集进行端到端训练。
  • 采用 ResNet-50 作为主干网络,确保实时推理速度(在 OTB-2015 上为 45 fps,在 VOT 上使用旋转框时为 33 fps)。
  • 利用交叉注意力隐式聚合搜索图像中的上下文依赖关系,以更新目标模板,从而提升鲁棒性与判别能力。

实验结果

研究问题

  • RQ1在孪生网络中联合使用自注意力与交叉注意力,是否相比独立特征提取能更有效地提升视觉目标跟踪的特征表示?
  • RQ2通过交叉注意力整合背景上下文信息,如何增强对干扰物与复杂背景的判别能力?
  • RQ3区域细化模块通过逐通道互相关运算,能在多大程度上提升定位精度?
  • RQ4所提出的可变形注意力机制是否在实现最先进性能的同时保持实时推理性能?
  • RQ5该方法在具有不同遮挡程度、形变与背景杂波水平的多样化基准上表现如何?

主要发现

  • 在 VOT 2016 上,SiamAttn 达到新的最先进 EAO 得分 0.537,相比 SiamRPN++ 的 0.464 提升 0.073。
  • 在 VOT 2018 上,该方法取得 EAO 0.470,相比 SiamRPN++ 的 0.415 提升 0.055。
  • 消融实验表明,交叉注意力的贡献显著高于自注意力,相比基线提升 EAO 4.9%。
  • 仅使用区域细化模块即可使 EAO 相比基线提升 2.2%,而结合两种注意力机制后达到最高性能。
  • 即使不使用可变形层,模型仍保持强劲性能(EAO = 0.516),表明注意力模块与细化模块是性能提升的主要驱动力。
  • 模型在 OTB-2015 上运行速度为 45 fps,在 VOT 基准上为 33 fps,证明其具备高精度的实时推理能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。