QUICK REVIEW

[论文解读] Unsupervised Deep Tracking

Ning Wang, Yibing Song|arXiv (Cornell University)|Apr 3, 2019

Video Surveillance and Tracking Methods参考文献 54被引用 31

一句话总结

该论文提出了一种无监督深度跟踪方法，通过使用前向-后向跟踪一致性损失，在大规模未标注视频上训练孪生相关滤波网络，实现了与完全监督跟踪器相当的性能，且无需任何真实标注。该方法利用轨迹一致性、多帧验证以及代价敏感损失，提升了视觉跟踪中的无监督表示学习效果。

ABSTRACT

We propose an unsupervised visual tracking method in this paper. Different from existing approaches using extensive annotated data for supervised learning, our CNN model is trained on large-scale unlabeled videos in an unsupervised manner. Our motivation is that a robust tracker should be effective in both the forward and backward predictions (i.e., the tracker can forward localize the target object in successive frames and backtrace to its initial position in the first frame). We build our framework on a Siamese correlation filter network, which is trained using unlabeled raw videos. Meanwhile, we propose a multiple-frame validation method and a cost-sensitive loss to facilitate unsupervised learning. Without bells and whistles, the proposed unsupervised tracker achieves the baseline accuracy of fully supervised trackers, which require complete and accurate labels during training. Furthermore, unsupervised framework exhibits a potential in leveraging unlabeled or weakly labeled data to further improve the tracking accuracy.

研究动机与目标

开发一种无需依赖昂贵且人工标注的训练数据的视觉跟踪方法。
探究前向与后向跟踪之间的轨迹一致性是否可作为无监督深度特征学习的自监督信号。
通过多帧验证和代价敏感损失，提升无监督跟踪性能，以应对噪声或失败的后向轨迹。
评估在互联网规模的无标注视频上进行无监督预训练，是否能获得与监督基线相当的跟踪精度。

提出的方法

该框架采用基于前向与后向跟踪一致性损失的无监督损失函数，训练基于孪生相关滤波主干网络。
前向跟踪预测后续帧中的目标位置；后向跟踪从最后一帧开始，预测初始位置。
一致性损失衡量初始真实框与回溯位置之间的偏差，构成无监督监督信号。
多帧验证通过增大前向与后向轨迹之间的差异，减少验证中的误报。
引入代价敏感损失，以降低噪声或误预测样本在训练过程中的影响。
训练期间使用随机裁剪的边界框进行初始化，以增强对部分或不完整目标的鲁棒性。

实验结果

研究问题

RQ1前向-后向跟踪一致性是否可作为无需任何真实标注即可训练深度视觉跟踪器的可行自监督信号？
RQ2所提出的无监督训练流程在从大规模无标注视频中学习鲁棒视觉表征方面有多有效？
RQ3集成多帧验证与代价敏感损失是否能提升无监督跟踪训练的可靠性？
RQ4在无标注数据上进行无监督预训练是否能实现与完全监督跟踪器在标准基准测试中相当的性能？
RQ5通过利用额外的弱标注或无标注数据，是否可进一步提升无监督框架的性能？

主要发现

所提出的无监督跟踪器（UDT）在OTB-2015基准上达到0.54的准确率，与完全监督的SiamFC及其他最先进跟踪器性能相当。
在VOT2016基准上，UDT获得0.226的EAO得分，与SiamFC和DSST等监督基线相当。
改进的UDT+变体在VOT2016上获得0.301的EAO得分，优于包括SA-Siam和MemTrack在内的多个完全监督跟踪器。
属性分析表明，尽管UDT在多数挑战上表现良好，但在光照变化、遮挡和快速运动方面仍落后，原因在于监督有限。
定性结果表明，UDT在无需在线适应或监督的情况下，能有效跟踪Ironman和Diving等复杂序列。
无监督框架在结合额外无标注数据时展现出显著提升跟踪精度的潜力，表明其具备可扩展性和泛化优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。