[论文解读] ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual Tracking
ZoomTrack 引入一个目标感知的非均匀缩放模块,在保持目标区域分辨率的同时放大目标可能出现的区域,从而在多种跟踪器中实现更快的跟踪,性能接近甚至超过更大输入基线。
Recently, the transformer has enabled the speed-oriented trackers to approach state-of-the-art (SOTA) performance with high-speed thanks to the smaller input size or the lighter feature extraction backbone, though they still substantially lag behind their corresponding performance-oriented versions. In this paper, we demonstrate that it is possible to narrow or even close this gap while achieving high tracking speed based on the smaller input size. To this end, we non-uniformly resize the cropped image to have a smaller input size while the resolution of the area where the target is more likely to appear is higher and vice versa. This enables us to solve the dilemma of attending to a larger visual field while retaining more raw information for the target despite a smaller input size. Our formulation for the non-uniform resizing can be efficiently solved through quadratic programming (QP) and naturally integrated into most of the crop-based local trackers. Comprehensive experiments on five challenging datasets based on two kinds of transformer trackers, \ie, OSTrack and TransT, demonstrate consistent improvements over them. In particular, applying our method to the speed-oriented version of OSTrack even outperforms its performance-oriented counterpart by 0.6% AUC on TNL2K, while running 50% faster and saving over 55% MACs. Codes and models are available at https://github.com/Kou-99/ZoomTrack.
研究动机与目标
- 通过改变输入裁剪的缩放方式来提高基于变换器的跟踪器的速度,而不牺牲准确性。
- 提出一个低开销、可控的受人类视觉处理启发的非均匀缩放模块。
- 将缩放模块整合到基于裁剪的跟踪器中并在多个基准上评估。
- 证明以速度为导向的跟踪器在极少计算量的情况下也能缩小甚至超越性能导向变体的差距。
提出的方法
- 定义一个小的可控网格,用来表示源裁剪与目标裁剪之间的非均匀缩放。
- 将网格操作公式化为带有放大和刚性能量的二次规划(QP)问题,并附带线性约束。
- 计算以时间先验为中心的重要性图,以放大目标区域并相应地偏置网格区间。
- 求解 QP 以获得网格区间,并对源图像进行采样以创建非均匀缩放的目标补丁。
- 在训练和推理阶段将缩放模块与现有跟踪器(OSTrack 和 TransT)整合。
实验结果
研究问题
- RQ1目标感知非均匀缩放能在不增加计算成本的情况下提升跟踪精度吗?
- RQ2ZoomTrack 是否在多样数据集上缩小了面向速度的跟踪器与面向性能的跟踪器之间的差距?
- RQ3在避免过度变形或裁剪的同时,应如何放大可能的目标区域?
- RQ4该方法是否可以在不同的基于变换器的跟踪器中通用?
主要发现
- ZoomTrack 在五个具有挑战性的数据集上持续改进 OSTrack 和 TransT 的基线。
- 将 ZoomTrack 应用于以速度为导向的 OSTrack 可以获得与对应更大输入、面向性能的变体相媲美甚至优越的性能,同时在某些基准上将 MACs 降低超过 55%,并大约快 50% 的运行速度。
- 该方法在 GOT-10k、LaSOT、LaSOT ext 和 TNL2K 上取得显著提升,在 TrackingNet 上提供小幅到中等的提升,且受情境影响。
- 非均匀缩放模块造成的 CPU 端开销很小(约 1.58 毫秒),但在相同或更小输入尺寸下比均匀缩放带来更高的准确性。
- 消融研究表明:可控放大(gamma ~1.5)、对形变的稳定性,以及在训练、测试或两者情境中的有效性。
- 该方法可以与不同的跟踪器(OSTrack 和 TransT)结合,参数共用且无需特定数据集的调整。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。