Skip to main content
QUICK REVIEW

[论文解读] Detect-and-Track: Efficient Pose Estimation in Videos

Rohit Girdhar, Georgia Gkioxari|arXiv (Cornell University)|Dec 26, 2017
Human Pose and Action Recognition被引用 27
一句话总结

本文提出 Detect-and-Track,一种用于视频中高效人体姿态估计与跟踪的两阶段方法。它利用 3D Mask R-CNN 在短片段中利用时间上下文,实现鲁棒的帧级关键点预测,随后通过轻量级匈牙利匹配进行跟踪。该方法在 PoseTrack 验证集上达到 55.2% 的 MOTA,在测试集上达到 51.8%,性能达到最先进水平,同时比先前基于 IP 的方法快 237 倍。

ABSTRACT

This paper addresses the problem of estimating and tracking human body keypoints in complex, multi-person video. We propose an extremely lightweight yet highly effective approach that builds upon the latest advancements in human detection and video understanding. Our method operates in two-stages: keypoint estimation in frames or short clips, followed by lightweight tracking to generate keypoint predictions linked over the entire video. For frame-level pose estimation we experiment with Mask R-CNN, as well as our own proposed 3D extension of this model, which leverages temporal information over small clips to generate more robust frame predictions. We conduct extensive ablative experiments on the newly released multi-person video pose estimation benchmark, PoseTrack, to validate various design choices of our model. Our approach achieves an accuracy of 55.2% on the validation and 51.8% on the test set using the Multi-Object Tracking Accuracy (MOTA) metric, and achieves state of the art performance on the ICCV 2017 PoseTrack keypoint tracking challenge.

研究动机与目标

  • 解决在存在遮挡和运动的复杂多人群视频中实现准确、高效人体关键点跟踪的挑战。
  • 通过使用 3D CNN 扩展的 Mask R-CNN 在短视频片段中整合时间上下文,提升帧级关键点估计性能。
  • 开发一种可扩展、快速的跟踪流水线,实现在无需复杂优化的情况下跨时间链接预测。
  • 建立一个强大且简单的基线,用于未来研究,基于帧级预测与匈牙利匹配。
  • 证明在关键点估计中引入时间建模可显著提升跟踪精度。

提出的方法

  • 该方法采用两阶段流水线:首先在短视频片段(T=3 帧)上使用 3D Mask R-CNN 进行关键点估计,其次在中心帧输出上使用匈牙利算法进行轻量级跟踪。
  • 通过使用 '均值' 或 '中心' 初始化方式膨胀 2D ResNet-18 和 Mask R-CNN 权重,构建 3D Mask R-CNN 以实现时间一致性。
  • 模型以滑动窗口方式处理片段,生成包含每帧关键点位置的时空人体实例管。
  • 通过匈牙利算法将帧级预测在时间上关联,实现最优分配,以最小计算量最小化跟踪代价。
  • 通过避免复杂整数规划或图模型,保持高效率,实现在视频长度上的线性扩展。
  • 在 PoseTrack 基准上评估该方法,使用 mAP 和 MOTA 作为主要指标,比较不同变体的性能。

实验结果

研究问题

  • RQ1来自短视频片段的时间上下文是否能提升多人群视频中帧级关键点估计的准确性?
  • RQ2两阶段方法(分离检测与跟踪)是否相比端到端优化方法在效率和可扩展性方面表现更优?
  • RQ3在使用相同基础架构和分辨率时,3D Mask R-CNN 与 2D 对比模型在关键点 mAP 和 MOTA 上表现如何?
  • RQ4当与强帧级预测结合时,轻量级跟踪模块(如匈牙利匹配)是否能超越复杂优化方法的跟踪器?
  • RQ5与最先进基于 IP 的公式相比,该方法在长视频上的计算效率如何?

主要发现

  • 在使用相同 ResNet-18 架构和 256px 输入分辨率时,3D Mask R-CNN 比 2D 基线模型将关键点 mAP 提升 2%,MOTA 提升 1%。
  • 2D 基线模型使用 ResNet-101 和 800px 输入分辨率,达到最先进性能,优于更深的 3D 模型,原因在于分辨率更高和模型容量更大。
  • 完整的 Detect-and-Track 流水线在 PoseTrack 验证集上达到 55.2% 的 MOTA,在测试集上达到 51.8%,创下 ICCV 2017 挑战赛的新 SOTA 记录。
  • 该方法在 100 帧视频上运行仅需 5.2 分钟,相比先前基于 IP 的方法完成相同任务耗时 16 小时,实现 237 倍加速。
  • 运行时间与视频长度呈线性关系,使其在长视频中具有高度可扩展性,而基于 IP 的求解器则非线性扩展。
  • 消融研究证实,检测阶段的时间建模显著提升了对遮挡和运动模糊的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。