QUICK REVIEW

[论文解读] Spatial-Temporal Relation Networks for Multi-Object Tracking

Jiarui Xu, Yue Cao|arXiv (Cornell University)|Apr 25, 2019

Video Surveillance and Tracking Methods参考文献 57被引用 27

一句话总结

本文提出空间-时间关系网络（STRN），一种统一的端到端深度学习框架，通过联合建模空间与时间维度上的外观、位置和拓扑线索，实现多目标跟踪。通过将关系网络扩展至时空域，STRN利用内容感知聚合增强特征表示，在使用公开检测结果的在线设置下，于MOT15–17基准上达到最先进性能。

ABSTRACT

Recent progress in multiple object tracking (MOT) has shown that a robust similarity score is key to the success of trackers. A good similarity score is expected to reflect multiple cues, e.g. appearance, location, and topology, over a long period of time. However, these cues are heterogeneous, making them hard to be combined in a unified network. As a result, existing methods usually encode them in separate networks or require a complex training approach. In this paper, we present a unified framework for similarity measurement which could simultaneously encode various cues and perform reasoning across both spatial and temporal domains. We also study the feature representation of a tracklet-object pair in depth, showing a proper design of the pair features can well empower the trackers. The resulting approach is named spatial-temporal relation networks (STRN). It runs in a feed-forward way and can be trained in an end-to-end manner. The state-of-the-art accuracy was achieved on all of the MOT15-17 benchmarks using public detection and online settings.

研究动机与目标

为解决将异构线索——外观、位置与拓扑——整合为单一鲁棒相似性度量以实现多目标跟踪的挑战。
开发一种统一的、可端到端训练的框架，以建模空间与时间域之间的依赖关系。
通过在时空上进行结构化推理，增强轨迹-目标对的特征表示，从而提升跟踪精度。
通过在单一前馈架构中集成所有线索，消除对特定线索网络或复杂训练方案的需求。

提出的方法

STRN将物体-物体关系网络扩展至时空域，实现跨帧对外观与拓扑特征的联合建模。
在空间域中，网络通过使用内容感知注意力机制，聚合邻近物体的上下文信息，增强物体外观特征。
在时间域中，通过学习加权特征融合的时间关系模块，聚合前序帧的信息以更新轨迹特征。
最终相似性分数通过拼接优化后的物体特征与聚合的轨迹特征，再经最终分类器计算得出。
整个网络通过标准反向传播进行端到端训练，无需辅助监督或复杂后处理。
一个关键设计选择是构建结合一元特征、余弦相似度与运动特征的轨迹-物体对特征表示，以提升判别能力。

实验结果

研究问题

RQ1统一的深度学习框架能否有效整合异构线索（外观、位置与拓扑）以实现多目标跟踪？
RQ2通过关系网络建模空间与时间依赖关系，如何提升长期跟踪中的相似性度量性能？
RQ3不同轨迹-物体对的特征表示形式对跟踪精度有何影响？
RQ4端到端训练的单一网络能否在在线多目标跟踪中超越特定线索或多阶段方法？
RQ5所提出的时空关系模块与平均池化或最大池化等简单聚合方法相比表现如何？

主要发现

在在线设置下，STRN于MOT17基准上实现了50.9的SOTA MOTA，超越所有先前的在线方法。
在MOT15上，STRN实现了48.5的MOTA，较之前SOTA方法提升1.4分。
在MOT16上，STRN实现了53.9的MOTA，展现出在多样化跟踪场景中的强大泛化能力。
消融实验表明，结合一元外观与余弦相似度特征使MOTA相比仅使用外观特征提升了10.0分。
时空关系模块总计贡献3.9 MOTA分，其中空间推理贡献2.5分，时间推理贡献1.4分，显著优于平均池化与最大池化基线。
当引入位置特征后，ID切换次数从515降至129，表明身份一致性显著提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。