[论文解读] Online Tracking by Learning Discriminative Saliency Map with Convolutional Neural Network
本文提出一种在线视觉追踪方法,利用预训练的卷积神经网络(CNN)学习具有判别性的显著图,以实现精确的目标定位和像素级分割。通过将SVM识别的特征反向传播通过CNN,该方法生成针对目标的显著图,从而增强外观建模,在基准数据集上实现了最先进性能,展现出卓越的追踪精度和分割能力。
We propose an online visual tracking algorithm by learning discriminative saliency map using Convolutional Neural Network (CNN). Given a CNN pre-trained on a large-scale image repository in offline, our algorithm takes outputs from hidden layers of the network as feature descriptors since they show excellent representation performance in various general visual recognition problems. The features are used to learn discriminative target appearance models using an online Support Vector Machine (SVM). In addition, we construct target-specific saliency map by backpropagating CNN features with guidance of the SVM, and obtain the final tracking result in each frame based on the appearance model generatively constructed with the saliency map. Since the saliency map visualizes spatial configuration of target effectively, it improves target localization accuracy and enable us to achieve pixel-level target segmentation. We verify the effectiveness of our tracking algorithm through extensive experiment on a challenging benchmark, where our method illustrates outstanding performance compared to the state-of-the-art tracking algorithms.
研究动机与目标
- 解决在遮挡、光照变化和运动模糊等复杂现实条件下实现鲁棒视觉追踪的挑战。
- 通过结合深度CNN特征与基于SVM的在线判别学习,改进目标外观建模。
- 通过反向传播判别特征构建目标特定显著图,实现像素级目标分割。
- 通过SVM和生成模型的增量学习实现实时追踪器自适应,以维持持续的追踪性能。
提出的方法
- 利用最后一层卷积层的预训练CNN特征作为目标外观的通用、高层表示。
- 采用在线SVM,利用序列训练样本学习判别性目标-背景分类。
- 通过将与正样本SVM相关的CNN特征反向传播通过网络,生成目标特定显著图。
- 聚合多个正样本的显著图,形成空间上更精细的图,突出显示判别性目标区域。
- 通过使用显著图作为似然观测模型的序贯贝叶斯滤波执行追踪。
- 实时更新在线SVM和生成外观模型,以实现持续自适应。
实验结果
研究问题
- RQ1在不微调网络的情况下,预训练CNN特征能否有效用于在线视觉追踪?
- RQ2如何从CNN特征构建判别性显著图以提高定位精度?
- RQ3基于SVM决策边界的显著图能否在具有挑战性的视觉条件下增强追踪鲁棒性?
- RQ4基于显著图的生成模型在像素级分割方面相比仅依赖边界框的追踪方法,提升程度如何?
主要发现
- 所提方法在在线追踪基准上实现了最先进性能,在所有评估指标上均优于现有追踪器。
- 采用基于显著图的生成建模的完整算法相比仅依赖SVM分数的简化版本表现出显著改进。
- 该追踪器实现了高精度的像素级分割,重叠率(IoU)显著超过基于边界框的追踪器。
- 定量结果表明,该方法在全部11项追踪挑战属性(包括遮挡、光照变化和快速运动)中均表现出一致的优越性。
- 在9个视频序列上的成功曲线显示,所提方法取得了最高的AUC得分,表明其具备鲁棒且精确的追踪性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。