QUICK REVIEW

[论文解读] Multi-Person Pose Estimation with Local Joint-to-Person Associations

Umar Iqbal, Jüergen Gall|arXiv (Cornell University)|Aug 30, 2016

Human Pose and Action Recognition参考文献 29被引用 22

一句话总结

该论文提出了一种快速且准确的多人姿态估计方法，将关节点到人体的关联问题建模为每个个体的局部优化问题，通过在裁剪图像区域上使用整数线性规划（ILP）实现。该方法在MPII多人姿态数据集上实现了最先进（SOTA）的精度，同时相比之前的方法快6,000至19,000倍，原因在于其采用局部而非全局的方式解决关联问题。

ABSTRACT

Despite of the recent success of neural networks for human pose estimation, current approaches are limited to pose estimation of a single person and cannot handle humans in groups or crowds. In this work, we propose a method that estimates the poses of multiple persons in an image in which a person can be occluded by another person or might be truncated. To this end, we consider multi-person pose estimation as a joint-to-person association problem. We construct a fully connected graph from a set of detected joint candidates in an image and resolve the joint-to-person association and outlier detection using integer linear programming. Since solving joint-to-person association jointly for all persons in an image is an NP-hard problem and even approximations are expensive, we solve the problem locally for each person. On the challenging MPII Human Pose Dataset for multiple persons, our approach achieves the accuracy of a state-of-the-art method, but it is 6,000 to 19,000 times faster.

研究动机与目标

解决在人群密集或遮挡场景中，人体被截断或重叠时的多人姿态估计挑战。
克服在大型图模型中全局关节点到人体关联的计算不可行性，该问题为NP难问题且计算速度极慢。
通过降低运行时间并保持高精度，实现多人姿态估计在实际场景中的实时应用。
将全局关联问题分解为每个个体独立的局部优化任务，从而在不牺牲鲁棒性的情况下提升效率。
证明基于预训练人体检测器和基于CNN的关节点检测，采用局部关联可实现性能优异且计算成本极低的解决方案。

提出的方法

使用预训练的人体检测器为图像中每个人生成感兴趣区域（ROIs），重点关注每个人的中心区域。
对每个ROI，使用卷积神经网络（CNN）检测所有关节点候选，生成每个关键点的热力图。
在每个ROI内检测到的关节点候选之间构建完全连接图，以建模所有可能的关节点到人体的关联。
将关节点到人体的关联与异常值检测建模为每个ROI的整数线性规划（ILP）问题，以寻找最优姿态配置。
使用CNN直接进行关节点标注和非极大值抑制（NMS），避免依赖图模型进行后处理优化。
对每个个体的ROI局部求解ILP问题，而非在整个图像中全局求解，从而大幅降低计算复杂度。

实验结果

研究问题

RQ1在裁剪图像区域中采用局部关节点到人体的关联，能否在多人姿态估计中达到与全局关节点关联相当的精度？
RQ2与全局求解相比，采用局部求解关节点到人体关联是否能显著降低运行时间，同时保持对遮挡和截断的鲁棒性？
RQ3在精度和推理速度方面，局部关联方法与最先进（SOTA）的全局方法相比表现如何？
RQ4在所提出的框架中，人体检测器的质量在多大程度上影响最终的姿态估计精度？
RQ5能否开发一种轻量化、高效的算法，实现实时多人姿态估计，同时在具有挑战性的基准测试中不牺牲精度？

主要发现

在MPII多人姿态数据集的288张图像子集上，所提方法实现了54.7%的平均精度（mAP），优于DeepCut的53.5%，且推理速度提升5,799.5倍（每张图像10秒 vs. 57,995秒）。
当每个关节点仅保留一个候选（N=1）时，方法每张图像仅需3秒，mAP达到53.1%，相比DeepCut快超过19,000倍。
在包含2,000多张图像的完整测试集上，方法mAP为43.1%，当使用真实标注的人体边界框时，mAP提升至62.2%，表明检测质量对性能有显著影响。
在完整测试集上，该方法比DeeperCut快50倍（每张图像10秒 vs. 485秒），当N=1时快160倍。
使用真实标注的躯干位置可使mAP从43.1%提升至62.2%，表明若采用更优的人体检测器，性能仍有进一步提升空间。
在使用相同检测输入时，该方法在精度上优于DeepCut和DeeperCut；当使用真实标注ROI时，显著优于同期方法[6]。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。