QUICK REVIEW

[论文解读] Graph Neural Based End-to-end Data Association Framework for Online Multiple-Object Tracking

Xiaolong Jiang, Peizhao Li|arXiv (Cornell University)|Jul 11, 2019

Video Surveillance and Tracking Methods参考文献 88被引用 27

一句话总结

该论文提出了一种基于图神经网络（GNN）的端到端框架，用于在线多目标跟踪，联合学习外观和运动特征以计算亲和度得分，并利用GNN以可微分、可扩展的方式求解最大权重二分图匹配。该方法在MOT17和MOT15基准上实现了最先进性能，MOTA达到45.4%，IDF1达到27.8%，展现出对目标出生/死亡更强的鲁棒性，并显著减少了对超参数调优的需求。

ABSTRACT

In this work, we present an end-to-end framework to settle data association in online Multiple-Object Tracking (MOT). Given detection responses, we formulate the frame-by-frame data association as Maximum Weighted Bipartite Matching problem, whose solution is learned using a neural network. The network incorporates an affinity learning module, wherein both appearance and motion cues are investigated to encode object feature representation and compute pairwise affinities. Employing the computed affinities as edge weights, the following matching problem on a bipartite graph is resolved by the optimization module, which leverages a graph neural network to adapt with the varying cardinalities of the association problem and solve the combinatorial hardness with favorable scalability and compatibility. To facilitate effective training of the proposed tracking network, we design a multi-level matrix loss in conjunction with the assembled supervision methodology. Being trained end-to-end, all modules in the tracker can co-adapt and co-operate collaboratively, resulting in improved model adaptiveness and less parameter-tuning efforts. Experiment results on the MOT benchmarks demonstrate the efficacy of the proposed approach.

研究动机与目标

解决传统在线多目标跟踪方法依赖手工设计的数据关联启发式规则、可扩展性差且对目标出生/死亡敏感的局限性。
通过用可学习、可微分的优化模块替代刚性线性分配，克服在线多目标跟踪中数据关联的组合复杂性与变化的基数问题。
实现整个数据关联流程的端到端训练，以增强特征学习与匹配决策之间的协同适应，减少人工超参数调优。
设计多层级矩阵损失并引入集成监督，以增强训练稳定性与性能，尤其在低数据场景下表现更优。
证明基于GNN的优化方法在处理高动态目标复杂跟踪场景时，优于基于RNN/LSTM的方法。

提出的方法

将逐帧数据关联建模为图上的最大权重二分图匹配问题，其中节点代表跟踪轨迹和检测结果，边权重表示成对亲和度。
设计亲和度学习模块，利用深度神经网络联合编码外观与运动特征，并通过学习到的度量计算成对相似度得分。
实现基于GNN的优化模块，在二分图上执行消息传递以推断最终匹配，实现对不同数量目标的自适应处理与更优的关系推理。
引入多层级矩阵损失，结合对亲和度矩阵、运动特征和最终关联输出的监督，以实现有效端到端训练并具备强泛化能力。
使用真实关联的监督信号对整个框架进行端到端训练，避免后处理启发式规则或推理时的调优。
采用基于消息传递的GNN架构，仅在节点和边上局部操作，从而实现可扩展性，并兼容动态场景中的基数变化。

实验结果

研究问题

RQ1基于GNN的可学习、端到端框架是否能在在线多目标跟踪中超越传统手工设计的数据关联模块？
RQ2在联合训练的亲和度模块中整合外观与运动线索，在多大程度上能提升跟踪准确率与鲁棒性？
RQ3基于GNN的优化模块如何处理实时跟踪中数据关联的组合复杂性与基数可变性问题？
RQ4在多个网络组件（亲和度、运动、输出）上采用集成监督，是否能带来比单重监督基线更好的收敛性与性能？
RQ5所提出的框架是否能在不依赖推理时后处理启发式规则或数据增强的情况下，实现具有竞争力的结果？

主要发现

所提出的端到端GNN跟踪器在MOT17基准上实现了45.4%的MOTA与27.8%的IDF1，优于先前的在线跟踪器，包括RNN-LSTM与RMOT。
在MOT15上，该方法实现了39.5%的IDF1，较RNN-LSTM基线高出3.5%，MOTA与MT分别提升了12.8%与3.5%。
消融实验表明，GNN优化模块贡献显著，相比无此模块的基线，MOTA提升了15%；集成监督使性能较单重监督训练提升4.9%。
与单重监督基线相比，完整模型将ID切换减少了7.7%，表明长期轨迹一致性更优。
该方法在极少超参数调优下展现出强泛化能力，推理时未使用任何测试时启发式规则或数据增强。
GNN模块通过动态适应变化的图规模，有效处理目标出生与死亡问题，避免了传统求解器中常见的线性分配约束违反。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。