Skip to main content
QUICK REVIEW

[论文解读] End-to-end Flow Correlation Tracking with Spatial-temporal Attention

Zheng Zhu, Wei Wu|arXiv (Cornell University)|Nov 3, 2017
Video Surveillance and Tracking Methods参考文献 41被引用 26
一句话总结

本文提出FlowTrack,一种端到端深度学习框架,将光流估计、特征提取与相关滤波跟踪整合到统一网络中。通过光流引导的空间变换对历史特征图进行扭曲,并利用新型时空注意力机制自适应融合,该方法增强了特征表示,在OTB2013、OTB2015、VOT2015和VOT2016上实现最先进性能,于VOT2015和VOT2016上EAO排名第一,推理速度达12 FPS。

ABSTRACT

Discriminative correlation filters (DCF) with deep convolutional features have achieved favorable performance in recent tracking benchmarks. However, most of existing DCF trackers only consider appearance features of current frame, and hardly benefit from motion and inter-frame information. The lack of temporal information degrades the tracking performance during challenges such as partial occlusion and deformation. In this work, we focus on making use of the rich flow information in consecutive frames to improve the feature representation and the tracking accuracy. Firstly, individual components, including optical flow estimation, feature extraction, aggregation and correlation filter tracking are formulated as special layers in network. To the best of our knowledge, this is the first work to jointly train flow and tracking task in a deep learning framework. Then the historical feature maps at predefined intervals are warped and aggregated with current ones by the guiding of flow. For adaptive aggregation, we propose a novel spatial-temporal attention mechanism. Extensive experiments are performed on four challenging tracking datasets: OTB2013, OTB2015, VOT2015 and VOT2016, and the proposed method achieves superior results on these benchmarks.

研究动机与目标

  • 为解决现有判别相关滤波(DCF)跟踪器仅依赖当前帧外观、忽略时序运动线索的局限性。
  • 通过利用光流提升在部分遮挡、形变及光照变化等挑战性跟踪场景下的鲁棒性。
  • 实现光流估计与跟踪的端到端联合训练,克服先前方法中现成光流特征性能次优的问题。
  • 开发一种自适应特征聚合机制,利用运动引导的特征扭曲与注意力机制,对多帧特征进行对齐与融合。
  • 通过统一且可微分的光流与跟踪组件联合训练,实现更高的跟踪精度与鲁棒性。

提出的方法

  • 将光流估计、特征提取、特征聚合与相关滤波跟踪建模为深度神经网络中的可学习层,实现端到端训练。
  • 利用光流将历史特征图扭曲至当前帧的空间坐标,实现运动对齐的特征融合。
  • 提出一种新型时空注意力机制,自适应地加权来自不同时间步与空间位置的特征图。
  • 应用空间注意力聚焦于相关区域,时间注意力优先选择信息量丰富的历史帧,从而提升特征表示能力。
  • 采用多阶段网络架构,利用大规模跟踪数据集联合优化光流与跟踪分支。
  • 使用标准跟踪损失函数对整个系统进行端到端训练,实现光流精度与跟踪性能的联合优化。

实验结果

研究问题

  • RQ1与流水线式或固定光流方法相比,光流与视觉跟踪的端到端联合训练是否能提升跟踪的鲁棒性与精度?
  • RQ2基于光流的运动引导特征扭曲在对齐多帧特征以实现目标跟踪方面效果如何?
  • RQ3时空注意力机制是否通过自适应选择多帧中的相关特征,显著增强特征融合?
  • RQ4所提框架是否能在OTB2013、OTB2015、VOT2015与VOT2016等标准基准上超越最先进跟踪器?
  • RQ5端到端训练与固定光流网络在跟踪性能中的贡献分别是什么?

主要发现

  • 在OTB2013上,FlowTrack取得0.689的AUC,显著优于无光流基线(0.625)及其他变体。
  • 在OTB2015上,FlowTrack达到0.655的AUC,所有评估方法中排名第一。
  • 在VOT2015上,FlowTrack取得0.3405的EAO分数,在70个跟踪器中排名第一,推理速度为12 FPS。
  • 在VOT2016上,FlowTrack取得0.3342的EAO,EAO排名第一,鲁棒性排名第二,展现出强大的泛化能力。
  • 消融实验表明,端到端训练(FlowTr)在VOT2015与VOT2016上的EAO比固定光流(fix flow)高出超过8%。
  • 时空注意力机制贡献显著,移除时间注意力(no_ta)后EAO相比完整模型下降近8%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。