QUICK REVIEW

[论文解读] Visual Object Tracking With Discriminative Filters and Siamese Networks: A Survey and Outlook

Sajid Javed, Martin Danelljan|arXiv (Cornell University)|Dec 6, 2021

Video Surveillance and Tracking Methods被引用 15

一句话总结

本综述对视觉目标跟踪中的判别相关滤波器（DCFs）与孪生网络（SNs）进行了全面分析，涵盖九个基准测试中的90多个跟踪器。它详细阐述了其理论基础，比较了在期望平均重叠（EAO）等指标上的性能表现，并识别出两类方法的共性与独特挑战，最后提出了面向鲁棒性、实时性及多目标跟踪的未来研究建议。

ABSTRACT

Accurate and robust visual object tracking is one of the most challenging and fundamental computer vision problems. It entails estimating the trajectory of the target in an image sequence, given only its initial location, and segmentation, or its rough approximation in the form of a bounding box. Discriminative Correlation Filters (DCFs) and deep Siamese Networks (SNs) have emerged as dominating tracking paradigms, which have led to significant progress. Following the rapid evolution of visual object tracking in the last decade, this survey presents a systematic and thorough review of more than 90 DCFs and Siamese trackers, based on results in nine tracking benchmarks. First, we present the background theory of both the DCF and Siamese tracking core formulations. Then, we distinguish and comprehensively review the shared as well as specific open research challenges in both these tracking paradigms. Furthermore, we thoroughly analyze the performance of DCF and Siamese trackers on nine benchmarks, covering different experimental aspects of visual tracking: datasets, evaluation metrics, performance, and speed comparisons. We finish the survey by presenting recommendations and suggestions for distinguished open challenges based on our analysis.

研究动机与目标

系统性回顾过去十年中视觉目标跟踪领域中占主导地位的两种范式——判别相关滤波器（DCFs）与孪生网络（SNs）。
分析并比较九个主要跟踪基准（包括VOT、GOT-10K和TrackingNet）上超过90个基于DCF与孪生网络的跟踪器的性能表现。
识别并区分DCF与孪生网络跟踪范式中的共性与特定开放挑战，如边界伪影、优化困难以及在线模型自适应能力。
基于实证提出未来研究方向的建议，包括实例分割的融合、高效主干网络设计，以及Transformer在跟踪任务中的作用。
为开放世界场景下视觉跟踪、视频实例分割、SLAM与多目标跟踪之间的融合奠定基础。

提出的方法

系统回顾DCF的理论基础，包括基于最小二乘损失的在线相关滤波学习，以及基于FFT的快速卷积运算用于检测。
分析用于跟踪的孪生网络，聚焦于双分支架构，通过最小化目标样本与背景样本之间的嵌入空间距离来学习相似性。
采用标准指标（期望平均重叠（EAO）、平均成功率（mSR）和AUC）在九个基准上比较跟踪器性能。
评估速度与精度之间的权衡，突出展示SOTA结果，如DiMP在VOT2019上的EAO为0.274，SiamMask在VOT2018上的EAO为0.321。
整合现代DCF中端到端离线训练（如DiMP、PrDiMP）与孪生跟踪器在线适应能力受限的洞察。
探索新兴趋势，包括利用Transformer进行特征增强与相关性学习，以STARK为代表的基于注意力机制的相关性预测方法。

实验结果

研究问题

RQ1在标准基准测试中，基于DCF与基于孪生网络的跟踪器在准确性、鲁棒性与速度方面如何比较？
RQ2DCF与孪生网络跟踪中的共性与差异性挑战有哪些？例如边界伪影、优化困难以及在线模型自适应能力。
RQ3深度特征表示与主干网络架构（如ResNet）在两种范式中对跟踪器性能的影响程度如何？
RQ4近期进展（如端到端训练、分割模块融合与注意力机制）对跟踪性能与泛化能力产生了何种影响？
RQ5在开放世界场景中，实现鲁棒、实时与多目标跟踪的关键开放挑战是什么？

主要发现

表现最佳的DCF跟踪器DiMP在VOT2019基准上实现了0.274的EAO，显著优于早期方法如KCF（EAO: 0.181）与SRDCF（EAO: 0.192）。
表现最佳的孪生网络跟踪器SiamMask在VOT2018上实现了0.321的EAO，展现出在准确性与分割能力方面的优异表现。
在GOT-10K基准上，SOTA孪生网络跟踪器SiamR-CNN实现了0.649的mAO，而最佳DCF跟踪器PrDiMP达到0.634 mAO，表明两类范式正趋于收敛。
Transformer正作为现代跟踪器中的有效组件出现，STARK利用自注意力机制预测相关滤波器，实现了高精度与强鲁棒性。
如SiamMask与D3S所示，将实例分割模块集成到跟踪框架中，显著提升了边界框回归性能与模型更新的鲁棒性。
尽管已有进展，几何对应关系估计（如非平面物体的单应性变换）与在CPU平台上的实时性能（尤其是使用ResNet等深层主干网络时）仍面临挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。