[论文解读] Joint Flow: Temporal Flow Fields for Multi Person Tracking
本文提出 JointFlow,一种新颖的在线多人姿态追踪方法,通过轻量级卷积神经网络(CNN)预测时间流场(Temporal Flow Fields, TFF)——表示连续帧之间关节运动的向量场。通过在贪心二分图匹配框架中利用 TFF,该方法在 PoseTrack 验证集上实现了 59.1 的 SOTA MOTA,在测试集上达到 53.1,尽管网络架构更小,仍优于光流和先前的 SOTA 方法。
In this work we propose an online multi person pose tracking approach which works on two consecutive frames $I_{t-1}$ and $I_t$. The general formulation of our temporal network allows to rely on any multi person pose estimation approach as spatial network. From the spatial network we extract image features and pose features for both frames. These features serve as input for our temporal model that predicts Temporal Flow Fields (TFF). These TFF are vector fields which indicate the direction in which each body joint is going to move from frame $I_{t-1}$ to frame $I_t$. This novel representation allows to formulate a similarity measure of detected joints. These similarities are used as binary potentials in a bipartite graph optimization problem in order to perform tracking of multiple poses. We show that these TFF can be learned by a relative small CNN network whilst achieving state-of-the-art multi person pose tracking results.
研究动机与目标
- 解决在大运动、遮挡和外观变化下在线多人姿态追踪的挑战。
- 通过学习任务特定的运动表征,改进连续视频帧间的人体关联。
- 通过引入轻量级、端到端可训练的时间流场网络,减少对复杂时空优化的依赖。
- 通过避免昂贵的批处理或全局优化,实现实时高效追踪。
- 证明来自图像和姿态特征的结构知识能显著提升时间流预测质量。
提出的方法
- 空间网络在连续帧 $I_{t-1}$ 和 $I_{t}$ 上执行多人姿态估计,提取图像特征和姿态特征。
- 时间网络通过小型 CNN 预测时间流场(TFF),作为表示从 $I_{t-1}$ 到 $I_{t}$ 关节位移的二维向量场。
- TFF 用于在贪心二分图匹配框架中计算检测到的关节之间的相似性得分。
- 相似性能量函数定义为 $E_{TFF}^{T}(p_{j,m}^{t-1},p_{j,n}^{t}) = e^{-\frac{\|p_{j,n}^{t} - (p^{t-1}_{j,m} + \text{TFF}(p^{t-1}_{j,m}))\|^2}{\sigma^2}}$,其中 TFF 预测关节的期望位置。
- 该方法可与任意现成的姿态估计模型集成,并通过在线推理实现实时运行。
- 剪枝短于 7 帧的轨迹可将验证集上的 MOTA 从 59.1 提升至 59.8。
实验结果
研究问题
- RQ1任务特定的、可学习的关节运动表征是否能优于通用指标(如 PCKh 或 IoU)提升在线多人姿态追踪性能?
- RQ2基于小型 CNN 的时间流场(TFF)表征在追踪性能和效率方面与光流相比如何?
- RQ3TFF 是否能在无需复杂全局优化或长程时序建模的情况下实现优异的追踪性能?
- RQ4空间网络中的图像和姿态特征在多大程度上提升了预测 TFF 的质量?
- RQ5基于 TFF 的贪心二分图匹配策略是否在 PoseTrack 等标准基准上实现了 SOTA 结果?
主要发现
- JointFlow 在 PoseTrack 验证集上实现 MOTA 59.1,在官方排行榜上排名第二,测试集最终 MOTA 达到 53.1。
- 尽管使用了显著更小的网络,该方法仍优于基于光流的追踪(MOTA 58.5),证明了 TFF 作为任务特定表征的有效性。
- 剪枝短于 7 帧的轨迹可使验证集 MOTA 提升至 59.8,表明 TFF 有助于过滤虚假正例。
- 基于 TFF 的匹配在精度(87.1)和召回率(71.9)上均优于 ProTracker(55.2 MOTA)和 PoseFlow(58.3 MOTA),显示出更优的关联性能。
- 由于 TFF 的结构归纳偏差,该方法在大运动、遮挡和尺度变化等多样化场景中表现出良好的泛化能力。
- 消融实验证实,图像和姿态特征对高质量 TFF 预测至关重要,移除它们会显著降低性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。