[论文解读] CREST: Convolutional Residual Learning for Visual Tracking
CREST 将判别相关滤波器重新构建为一层卷积网络,并使用残差学习在端到端可训练框架中鲁棒地更新模型用于视觉跟踪。
Discriminative correlation filters (DCFs) have been shown to perform superiorly in visual tracking. They only need a small set of training samples from the initial frame to generate an appearance model. However, existing DCFs learn the filters separately from feature extraction, and update these filters using a moving average operation with an empirical weight. These DCF trackers hardly benefit from the end-to-end training. In this paper, we propose the CREST algorithm to reformulate DCFs as a one-layer convolutional neural network. Our method integrates feature extraction, response map generation as well as model update into the neural networks for an end-to-end training. To reduce model degradation during online update, we apply residual learning to take appearance changes into account. Extensive experiments on the benchmark datasets demonstrate that our CREST tracker performs favorably against state-of-the-art trackers.
研究动机与目标
- 推动基于相关滤波器的跟踪的端到端学习,以利用深度特征表示。
- 将特征提取、响应图生成和模型更新整合到一个可微分的 CNN 模型中。
- 通过应用空间和时序残差学习来缓解在线更新过程中的模型退化。
提出的方法
- 将判别相关滤波器(DCFs)重新表述为一层卷积网络(基础层)。
- 通过三层空间残差层(以及可选的时序残差)来建模基础层输出与真实响应之间的差异。
- 用来自预训练 CNN(VGG)的搜索补丁和初帧提取特征,并以等同于 DCF 目标的 L2 损失进行训练。
- 使端到端反向传播在跟踪过程中在线更新卷积滤波器。
- 通过评估多尺度并用系数 beta 对目标尺度更新进行平滑以实现尺度估计。
实验结果
研究问题
- RQ1是否可以将基于 DCF 的跟踪重新表述为一个端到端可训练的 CNN 模块?
- RQ2残差学习是否能提高对外观变化的鲁棒性并降低在线更新过程中的模型退化?
- RQ3在实时约束下,整合时序残差对跟踪性能的影响如何?
主要发现
- CREST 在标准基准数据集(OTB-2013、OTB-2015、VOT-2016)上对比最先进的跟踪器表现良好。
- 基础层的性能与使用卷积特征的传统 DCF 跟踪器相当,在集成时空残差时有显著提升。
- 空间残差学习提升了精度和 AUC,时序残差对整体性能的贡献较温和。
- 定性结果表明,CREST 在背景杂乱和光照变化等挑战条件下通过残差细化保持了准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。