[论文解读] Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism
本论文提出 STAM,一种动态 CNN 基于的在线 MOT 框架,能够在目标之间共享 CNN 特征,并使用时空注意力机制提升对遮挡和目标交互的鲁棒性。它使用 ROI-Pooling、目标特异的 CNN 分支,以及用于在线更新的基于可见性的注意力模块。
In this paper, we propose a CNN-based framework for online MOT. This framework utilizes the merits of single object trackers in adapting appearance models and searching for target in the next frame. Simply applying single object tracker for MOT will encounter the problem in computational efficiency and drifted results caused by occlusion. Our framework achieves computational efficiency by sharing features and using ROI-Pooling to obtain individual features for each target. Some online learned target-specific CNN layers are used for adapting the appearance model for each target. In the framework, we introduce spatial-temporal attention mechanism (STAM) to handle the drift caused by occlusion and interaction among targets. The visibility map of the target is learned and used for inferring the spatial attention map. The spatial attention map is then applied to weight the features. Besides, the occlusion status can be estimated from the visibility map, which controls the online updating process via weighted loss on training samples with different occlusion statuses in different frames. It can be considered as temporal attention mechanism. The proposed algorithm achieves 34.3% and 46.0% in MOTA on challenging MOT15 and MOT16 benchmark dataset respectively.
研究动机与目标
- 通过基于 CNN 的单对象跟踪器推动在线多目标跟踪 (MOT),以增强外观自适应和对下一帧目标搜索。
- 通过在目标之间共享 CNN 特征并使用 ROI-Pooling 以获取每个目标的特征,从而降低计算成本。
- 在在线更新过程中引入时空注意力,以减小来自遮挡和目标之间交互产生的漂移。
- 通过学习的可见性映射和时间注意力对训练样本进行加权,启用对遮挡的在线感知更新。
- 在 MOT15 和 MOT16 基准上评估该方法,与最先进的在线和离线跟踪方法进行对比。
提出的方法
- 一个基于动态 CNN 的 MOT 框架,具备共享的 CNN 层以及用于每个目标的在线更新分支,充当单目标跟踪器。
- ROI-Pooling 从共享的帧级特征图中提取目标特征,以实现高效的多目标跟踪。
- 空间注意力来自学习的可见性映射,在特征提取时强调未遮挡区域。
- 时间注意力根据遮挡和重叠线索,在在线样本与历史正样本之间进行权重分配,用于更新目标特定分类器。
- 一个简单的运动模型(恒定速度并带高斯噪声)引导搜索区域并更新速度和协方差。
- 状态估计通过将分类器分数与检测结果的 IoU 结合起来,以细化目标状态。
实验结果
研究问题
- RQ1在 MOT 中,是否可以高效地在多个目标之间共享基于 CNN 的单对象跟踪器以降低计算?
- RQ2如何在线学习空间注意力和时间注意力,以降低由遮挡和目标交互引起的漂移?
- RQ3将基于可见性的空间注意力和时间更新方案引入,是否相对于基线方法提升 MOT 的准确性和身份保持?
- RQ4在线更新的目标特异 CNN 分支对跟踪鲁棒性和速度有何影响?
- RQ5所提出的 STAM 框架在 MOT15 和 MOT16 基准上相对于在线和离线方法的表现如何?
主要发现
| 模式 | 方法 | MOTA | MOTP | MT | ML | FP | FN | IDS | Frag |
|---|---|---|---|---|---|---|---|---|---|
| Offline | STAM (MOT15) | 34.3% | 70.5% | 11.4% | 43.4% | 5154 | 34848 | 348 | 1463 |
| Online | STAM (MOT16) | 46.0% | 74.9% | 14.6% | 43.6% | 6895 | 91117 | 473 | 1422 |
- STAM 在 MOT15 上实现 34.3% MOTA,在 MOT16 (online) 实现 46.0% MOTA,在在线跟踪器中具有竞争力,且与某些离线方法相当。
- 该方法减少身份切换(IDS),在遮挡和目标间交互下保持鲁棒跟踪。
- 使用共享的 CNN 特征与 ROI-Pooling 相比简单地为每个目标运行单独跟踪器,显著提高计算效率。
- 基于学习的可见性映射的空间注意力以及用于加权在线更新的时间注意力都对相较基线带来性能提升。
- STAM 在 MOT15 和 MOT16 基准上相对于若干在线跟踪器显示出更高的 MOTA,在 MOT16 上与一些离线方法的 MOTA 相当/并行。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。