QUICK REVIEW

[论文解读] SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking

Dongyan Guo, Jun Wang|arXiv (Cornell University)|Nov 17, 2019

Video Surveillance and Tracking Methods参考文献 32被引用 41

一句话总结

SiamCAR 提出一个无锚点和无候选框提议的 Siamese 网络，执行逐像素分类和回归用于视觉跟踪，在实时速度下实现了最先进的结果。

ABSTRACT

By decomposing the visual tracking task into two subproblems as classification for pixel category and regression for object bounding box at this pixel, we propose a novel fully convolutional Siamese network to solve visual tracking end-to-end in a per-pixel manner. The proposed framework SiamCAR consists of two simple subnetworks: one Siamese subnetwork for feature extraction and one classification-regression subnetwork for bounding box prediction. Our framework takes ResNet-50 as backbone. Different from state-of-the-art trackers like Siamese-RPN, SiamRPN++ and SPM, which are based on region proposal, the proposed framework is both proposal and anchor free. Consequently, we are able to avoid the tricky hyper-parameter tuning of anchors and reduce human intervention. The proposed framework is simple, neat and effective. Extensive experiments and comparisons with state-of-the-art trackers are conducted on many challenging benchmarks like GOT-10K, LaSOT, UAV123 and OTB-50. Without bells and whistles, our SiamCAR achieves the leading performance with a considerable real-time speed.

研究动机与目标

将视觉跟踪分解为逐像素分类和回归，以预测目标位置和边界框。
消除锚点和区域提议以降低超参数调优和复杂性。
利用多层、多通道的 Siamese 特征表示实现鲁棒跟踪。
在简单的全卷积框架中端到端训练，以提高准确性和效率。
在多样化基准数据集上展示强泛化能力，不依赖花哨技巧。

提出的方法

使用带有骨干网络（ResNet-50）的 Siamese 子网络，从模板区域和搜索区域提取特征。
应用逐通道互相关，以生成包含丰富语义信息的多通道响应图。
将来自多层骨干的特征（F3、F4、F5）连接以实现稳健的逐像素预测。
在每个位置设置前景/背景分类分支，并设置回归分支，预测每个位置的边界框距离（l,t,r,b）。
添加 center-ness 分支以抑制低质量、偏心的预测，并使用联合损失 L = Lcls + lambda1 Lcen + lambda2 Lreg。
使用分类的交叉熵、回归的 IOU 损失以及 center-ness 损失进行训练；在推理阶段对尺度变化进行惩罚以重新排序候选框；将最终框作为前 k 个相邻预测的加权平均。

实验结果

研究问题

RQ1一个无锚点和无区域提议的 Siamese 框架是否能在标准基准上与基于区域提议的跟踪器相匹配甚至超过？
RQ2采用多通道响应图的逐像素分类和回归是否提高对干扰物、尺度变化和遮挡的鲁棒性？
RQ3在全卷积跟踪架构中，多层特征融合和 center-ness 的影响是什么？
RQ4SiamCAR 在 GOT-10K、LaSOT、UAV123 和 OTB-50 上的准确性和速度表现如何？
RQ5在实时跟踪中，不使用数据增强的端到端训练是否足以达到最先进的性能？

主要发现

SiamCAR 在 GOT-10K 上取得最先进的结果，领先的 AO、SR0.5 和 SR0.75，同时以 52.27 FPS 运行。
在 GOT-10K 上，SiamCAR 在 AO、SR0.5 和 SR0.75 分别超越 SiamRPN++ 5.2%、5.4% 和 9.0%。
SiamCAR 在 LaSOT、UAV123 和 OTB-50 基准测试上也提供卓越表现，并且不依赖复杂技巧或数据增强。
无锚点和无区域提议的设计在简化训练和降低超参数调优的同时，仍保持较强的准确性和实时速度。
该方法使用逐像素预测框架，单个响应图同时引导分类和回归，在干扰物、姿态/尺度变化下实现鲁棒跟踪。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。