[论文解读] Beyond Local Search: Tracking Objects Everywhere with Instance-Specific Proposals
本文提出一种全局目标跟踪方法,用针对特定实例的边缘基础提议生成取代局部搜索窗口,实现在整幅图像上的高效、高精度跟踪。通过基于对象模型对提议进行端到端学习重排序,该跟踪器提升了对快速运动和遮挡目标的鲁棒性,在OTB、TB50、VOT2014和ALOV300基准上达到最先进性能。
Most tracking-by-detection methods employ a local search window around the predicted object location in the current frame assuming the previous location is accurate, the trajectory is smooth, and the computational capacity permits a search radius that can accommodate the maximum speed yet small enough to reduce mismatches. These, however, may not be valid always, in particular for fast and irregularly moving objects. Here, we present an object tracker that is not limited to a local search window and has ability to probe efficiently the entire frame. Our method generates a small number of "high-quality" proposals by a novel instance-specific objectness measure and evaluates them against the object model that can be adopted from an existing tracking-by-detection approach as a core tracker. During the tracking process, we update the object model concentrating on hard false-positives supplied by the proposals, which help suppressing distractors caused by difficult background clutters, and learn how to re-rank proposals according to the object model. Since we reduce significantly the number of hypotheses the core tracker evaluates, we can use richer object descriptors and stronger detector. Our method outperforms most recent state-of-the-art trackers on popular tracking benchmarks, and provides improved robustness for fast moving objects as well as for ultra low-frame-rate videos.
研究动机与目标
- 解决基于检测的跟踪方法中局部搜索窗口的局限性,尤其针对快速或非规则运动目标。
- 克服将搜索范围扩展至局部区域之外时背景杂波和误报的问题。
- 在不牺牲计算效率或跟踪精度的前提下,实现在整幅图像上的全局搜索。
- 通过整合来自高质量提议的难负样本改进模型更新,减少漂移。
- 开发一种自适应于被跟踪对象的实例特定对象性度量,优于通用提议方法。
提出的方法
- 利用针对特定被跟踪对象定制的边缘特征(EdgeBox)生成少量高质量目标提议。
- 通过在线学习使用线性SVM,将通用的边缘基础对象性度量适配到被跟踪对象,以重排序提议。
- 利用对象模型(如NCC或SSVM)评估并重排序提议,重点关注难误报以提升判别能力。
- 将来自全局边缘区域的提议与前一帧位置附近的局部候选提议结合用于模型更新,增强鲁棒性。
- 在提议评分中引入运动平滑性约束,以保持时序一致性并减少抖动。
- 通过将提议生成与核心跟踪解耦,实现与任意现有基于检测的跟踪框架的灵活集成。
实验结果
研究问题
- RQ1与局部搜索相比,全局提议生成是否能提升对快速运动或遮挡目标的跟踪精度与鲁棒性?
- RQ2基于对象模型的实例特定提议重排序,与通用对象性分数相比,在减少误报方面表现如何?
- RQ3在模型更新与推理中,全局提议与局部搜索之间应如何实现最优平衡?
- RQ4该方法在超低帧率或复杂视觉条件下是否仍能保持高性能?
- RQ5提议数量如何影响跟踪性能与计算成本?
主要发现
- 所提跟踪器在VOT2014基准上表现最佳,位列所有SOTA方法中的第一名。
- 在OTB数据集上,该方法在快速运动(FM)类别中取得58.1的AUC和77.8的精度得分,优于KCF、MEEM和Struck。
- 在TB50基准中,该方法取得49.6%的准确率(AUC),超过KCF(40.2%)及其他SOTA跟踪器,最佳变体使用200个提议。
- 该方法在运动模糊(MB)和移动相机(MC)序列中显著提升性能,在ALOV300中分别取得54.9% AUC和78.5%精度(MB),以及60.9% AUC和68.4%精度(MC)。
- 使用BING而非EdgeBox生成提议时性能下降(TB50上AUC为33.7%),证实了所提边缘基础、实例特定提议方法的优越性。
- 计算速度与SOTA跟踪器相当,每帧提议生成时间低于100ms,尽管采用全局搜索,仍可实现实时性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。