[论文解读] Target Transformed Regression for Accurate Tracking
TREG 引入一个面向目标的基于 Transformer 的回归分支,用于无锚点跟踪,搭配在线目标模板队列,在约30 FPS 的情况下在八个基准测试上实现了最先进的结果。
Accurate tracking is still a challenging task due to appearance variations, pose and view changes, and geometric deformations of target in videos. Recent anchor-free trackers provide an efficient regression mechanism but fail to produce precise bounding box estimation. To address these issues, this paper repurposes a Transformer-alike regression branch, termed as Target Transformed Regression (TREG), for accurate anchor-free tracking. The core to our TREG is to model pair-wise relation between elements in target template and search region, and use the resulted target enhanced visual representation for accurate bounding box regression. This target contextualized representation is able to enhance the target relevant information to help precisely locate the box boundaries, and deal with the object deformation to some extent due to its local and dense matching mechanism. In addition, we devise a simple online template update mechanism to select reliable templates, increasing the robustness for appearance variations and geometric deformations of target in time. Experimental results on visual tracking benchmarks including VOT2018, VOT2019, OTB100, GOT10k, NFS, UAV123, LaSOT and TrackingNet demonstrate that TREG obtains the state-of-the-art performance, achieving a success rate of 0.640 on LaSOT, while running at around 30 FPS. The code and models will be made available at https://github.com/MCG-NJU/TREG.
研究动机与目标
- 通过在回归过程中保留目标边界信息,来提升无锚点跟踪的准确性。
- 开发一个回归分支,将目标外观通过成对的目标-搜索交互紧密集成。
- 引入一个在线目标模板队列,以适应随时间的外观变化和形变。
- 在八个主流跟踪基准上展示最先进的性能。
- 保持实时效率(约30 FPS),适用于实际应用。
提出的方法
- 提出一个面向目标的 Transformer 回归分支,将目标模板元素编码为键/值,使用搜索区域特征作为查询,产生增强的目标表示用于精确边界偏移回归。
- 实现一个简单的在线模板队列(3 个静态目标 + 4 个在线目标),基于置信度策略更新,以应对外观变化。
- 将目标变换回归与在线分类分支(DiMP 风格)结合,形成一个完整的无锚点跟踪器。
- 使用带 IoU 回归损失的端到端训练,以及常规分类目标,骨干网络为 ResNet-50,回归头使用可变形卷积。
- 在八个基准上评估(VOT2018/2019、LaSOT、TrackingNet、GOT10k、UAV123、NFS、OTB100),以确立 SOTA 性能。
- 在单张 RTX 2080Ti 上维持 ~30 FPS 的推理速度。
实验结果
研究问题
- RQ1如何在无锚点回归分支中整合目标信息,以在变形和视角变化下保持边界精度?
- RQ2面向目标的 Transformer 式回归在跟踪中的精度和鲁棒性是否优于深度卷积相关或像素级注意力?
- RQ3带有置信度更新的在线目标模板队列对随时间的外观变化鲁棒性有何影响?
- RQ4将 TREG 与基于 DiMP 的分类头结合,是否能在多样化基准上实现最先进的性能?
主要发现
- TREG 在八个基准上实现了最先进的结果,包括在 ~30 FPS 下 LaSOT 的成功率为 0.640。
- 基础实验表明,目标感知的 Transformer 相比深度卷积相关和像素级注意力变体显著提升了精度和 AUC。
- 基于置信度策略的在线模板更新在与静态目标比較时,AUC 提升约 0.9–1.2 点,Precision 提升 1.2–1.5 点。
- 在 VOT2018 上,TREG 达到 EAO 0.496、鲁棒性 0.098,超越以前的跟踪器。
- 在 VOT2019 上,TREG 的 EAO 0.391、鲁棒性 0.221、准确度 0.603,超过先前方法。
- TrackingNet 上使用 TREG 时,Precision、Normalized Precision、Success rate 显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。