[论文解读] FastPose: Towards Real-time Pose Estimation and Tracking via Scale-normalized Multi-task Networks
FastPose 提出一个端到端多任务网络,能够同时进行人体检测、姿态估计和 Re-ID,并结合尺度归一化的图像/特征金字塔,以实现实时姿态估计和遮挡感知跟踪。它在各个骨干网络上实现靠前的准确度并具备实时速度,并通过遮挡感知 Re-ID 减少 ID 切换。
Both accuracy and efficiency are significant for pose estimation and tracking in videos. State-of-the-art performance is dominated by two-stages top-down methods. Despite the leading results, these methods are impractical for real-world applications due to their separated architectures and complicated calculation. This paper addresses the task of articulated multi-person pose estimation and tracking towards real-time speed. An end-to-end multi-task network (MTN) is designed to perform human detection, pose estimation, and person re-identification (Re-ID) tasks simultaneously. To alleviate the performance bottleneck caused by scale variation problem, a paradigm which exploits scale-normalized image and feature pyramids (SIFP) is proposed to boost both performance and speed. Given the results of MTN, we adopt an occlusion-aware Re-ID feature strategy in the pose tracking module, where pose information is utilized to infer the occlusion state to make better use of Re-ID feature. In experiments, we demonstrate that the pose estimation and tracking performance improves steadily utilizing SIFP through different backbones. Using ResNet-18 and ResNet-50 as backbones, the overall pose tracking framework achieves competitive performance with 29.4 FPS and 12.2 FPS, respectively. Additionally, occlusion-aware Re-ID feature decreases the identification switches by 37% in the pose tracking process.
研究动机与目标
- 推动适用于实际视频应用的实时多人姿态估计与跟踪。
- 提出一个端到端的多任务网络(MTN),联合处理检测、姿态估计和人 Re-ID。
- 引入尺度归一化的图像和特征金字塔(SIFP),在不进行多尺度测试的情况下缓解尺度变化。
- 开发遮挡感知的 Re-ID 策略,在遮挡下提高姿态跟踪的稳定性。
- 在不同骨干网络上评估 FastPose,以展示速度-精度权衡和鲁棒性。
提出的方法
- 设计一个统一的骨干网络,三个任务专用头:检测(边界框)、姿态估计(关键点热力图)、Re-ID 特征(128-d),采用基于 RoIAlign 的池化。
- 引入尺度归一化的图像金字塔和特征金字塔(SIFP),将对象在尺度和特征图上分布,降低尺度变化而无需昂贵的多尺度测试。
- 遮挡感知 Re-ID 策略,利用姿态关键点推断遮挡并验证 Re-ID 特征以实现鲁棒的跟踪连接。
- 集成的相似性度量,结合基于 IoU 的位置线索和外观相似性,将检测与现有轨迹关联起来。
- 训练方案利用 COCO 的边界框和关键点,MPII/PoseTrack 的姿态,以及 person-reid 数据集(SSM、PRW)用于 Re-ID;单图像训练,独立任务损失。
- 推理流程在 RPN 之后选择前 top 的检测,并将 MTN 的输出应用于遮挡感知跟踪。
实验结果
研究问题
- RQ1一个端到端网络是否能够在实时速度下同时处理检测、关键点估计和 Re-ID?
- RQ2通过 SIFP 的尺度归一化是否在无多尺度测试的情况下改善姿态估计和跟踪的尺度变化?
- RQ3遮挡感知 Re-ID 是否在拥挤或遮挡场景中减少身份切换并提高姿态跟踪的稳定性?
- RQ4在 PoseTrack 和 COCO 数据集上使用 FastPose 时,不同骨干网络的速度与精度权衡有哪些?
主要发现
- FastPose-18 在 PoseTrack 上,采用 ResNet-18-FPN 骨干,达到 29.4 FPS,mAP 63.1,MOTA 56.8。
- FastPose-50 在 PoseTrack 上,采用 ResNet-50-FPN 骨干,达到 12.2 FPS,mAP 69.7,MOTA 62.8。
- SIFP 在各种骨干网络上持续提升姿态估计和跟踪性能(例如,在某些骨干上关键点 AP 提升约 2.4 点)。
- 遮挡感知 Re-ID 特征在姿态跟踪中将 ID 切换减少了 37%(从 243.1 降至 153.9)。
- 在一次消融实验中,将 IoU 替换为 Re-ID 特征使 ID 切换显著减少(41.6%)。
- 该方法在保持竞争力的姿态估计性能的同时实现实时跟踪,在速度方面超越了多种最先进方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。