[论文解读] Fully-Convolutional Siamese Networks for Object Tracking
本文提出 SiamFC,一种在 ImageNet Video 上端到端训练的全卷积孪生网络,用于目标跟踪,实现无需在线模型更新的实时推理。尽管结构简单,其在多个基准测试中(包括 VOT-15 和 OTB-100)均达到最先进性能,使用 100% 训练数据时在 VOT-15 上的期望重叠度为 0.274。
The problem of arbitrary object tracking has traditionally been tackled by learning a model of the object's appearance exclusively online, using as sole training data the video itself. Despite the success of these methods, their online-only approach inherently limits the richness of the model they can learn. Recently, several attempts have been made to exploit the expressive power of deep convolutional networks. However, when the object to track is not known beforehand, it is necessary to perform Stochastic Gradient Descent online to adapt the weights of the network, severely compromising the speed of the system. In this paper we equip a basic tracking algorithm with a novel fully-convolutional Siamese network trained end-to-end on the ILSVRC15 dataset for object detection in video. Our tracker operates at frame-rates beyond real-time and, despite its extreme simplicity, achieves state-of-the-art performance in multiple benchmarks.
研究动机与目标
- 为解决任意目标跟踪中仅依赖在线外观建模的局限性,该局限性限制了模型的表达能力。
- 通过在离线阶段预训练深层孪生网络,实现在无需在线学习的情况下实现高性能跟踪。
- 证明使用全卷积孪生网络的相似性学习方法可在多样化的跟踪基准上实现强大的泛化能力。
- 表明大规模监督数据集(如 ImageNet Video)使得训练强大且通用的跟踪器成为可能,而无需针对每段视频进行适应。
- 建立一个快速、高效且准确的跟踪流程,其运行速度远超实时,同时保持高精度。
提出的方法
- 采用孪生网络架构,其中相同的共享卷积特征提取器同时应用于样本图像(模板)和搜索图像。
- 网络相对于搜索图像为全卷积结构,通过双线性层计算特征图之间的互相关,实现密集且高效的滑动窗口评估。
- 相似性函数通过在 ILSVRC15 数据集上端到端训练的全卷积孪生网络实现,用于视频中的目标检测。
- 网络输出一个得分图,表示样本在搜索图像中每个空间位置出现的可能性。
- 推理过程中不进行任何在线模型更新或微调,网络在预训练后即固定不变。
- 跟踪器使用第一帧的外观作为样本,将得分图中得分最高的位置作为目标位置。
实验结果
研究问题
- RQ1在大规模数据集上以离线端到端方式训练的深度孪生网络,能否在任意目标跟踪任务中实现强大的泛化能力?
- RQ2全卷积孪生架构是否能在保持高跟踪精度的同时实现实时推理?
- RQ3使用预训练网络的相似性学习方法,能否在无需每段视频适应的情况下,超越基于在线学习的跟踪器?
- RQ4训练数据集的大小如何影响预训练孪生跟踪器在标准基准上的性能?
- RQ5在 ImageNet Video 上训练的跟踪器能否有效泛化到 ALOV、OTB 和 VOT 基准领域?
主要发现
- 当在 100% 的 ImageNet Video 数据集上训练时,SiamFC 在 VOT-15 基准上的期望重叠度达到 0.274,显著优于许多先前方法。
- 该跟踪器的帧率远超实时,适用于实际部署。
- 即使不进行任何在线模型更新,SiamFC 在复杂序列中对运动模糊、光照变化和尺度变化仍表现出强大的鲁棒性。
- 性能随训练数据规模单调提升,VOT-15 上的期望重叠度从 5% 数据时的 0.168 上升至 100% 数据时的 0.274。
- SiamFC 在 VOT-15 上优于大多数最先进跟踪器,包括使用在线适应的方法,同时是唯一实现实时速度的跟踪器。
- 该方法能有效从 ImageNet Video 领域泛化到 ALOV/OTB/VOT 基准领域,验证了其良好的迁移能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。