[论文解读] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
本论文提出 Part Affinity Fields (PAFs),一个自下而上的 CNN,联合预测身体部位置信度图和肢体亲和场以进行实时多人物二维姿态估计,并在贪婪解析阶段实现实时推断。它在 MPII 和 COCO 基准上达到最先进的准确度,运行时与人物数量无关。
We present an approach to efficiently detect the 2D pose of multiple people in an image. The approach uses a nonparametric representation, which we refer to as Part Affinity Fields (PAFs), to learn to associate body parts with individuals in the image. The architecture encodes global context, allowing a greedy bottom-up parsing step that maintains high accuracy while achieving realtime performance, irrespective of the number of people in the image. The architecture is designed to jointly learn part locations and their association via two branches of the same sequential prediction process. Our method placed first in the inaugural COCO 2016 keypoints challenge, and significantly exceeds the previous state-of-the-art result on the MPII Multi-Person benchmark, both in performance and efficiency.
研究动机与目标
- 在单张图像中检测多个人的二维姿态,而不需要人员检测器。
- 共同学习身体部位位置和肢体关联,以保持全局上下文。
- 实现快速、可扩展的解析,使其随图像内容而非人物数量变化而扩展。
提出的方法
- 两分支 CNN 预测 置信度 图 for body parts and Part Affinity Fields (PAFs) encoding limb orientation.
- 多阶段架构,对两个分支进行迭代细化和中间监督。
- 使用贪婪解析通过对 PAFs 的线积分对候选肢体进行评分并组装全身姿态。
- 基于最小生成树的解析,对每个肢体类型进行二分匹配,以形成姿态,相比完全连接图提高效率。
- 带有空间掩蔽的损失函数,用以处理未标注区域与阶段性监督(S 和 L 的 L2 损失)。
- 在置信度图上使用非极大值抑制以在解析前生成部位候选。
实验结果
研究问题
- RQ1如何将部位检测和部位-部位关联联合学习,以实现鲁棒的多人体姿态解析?
- RQ2是否可以通过全局肢体亲和场的自下而上方法在保持在挑战性数据集上高精度的同时实现实时性能?
- RQ3哪种解析策略足以高效地从部位候选中组装正确的姿态?
- RQ4通过 PAFs 建模肢体方向与通过更简单的中点基准关联相比,其影响如何?
- RQ5与以往自下而上和自上而下的方法相比,该方法在 MPII 和 COCO 基准上的表现如何?
主要发现
- PAFs 提供了一个鲁棒的、包含位置与方向的信息表征,用于肢体关联,从而实现准确的多人体解析。
- 所提出的两分支、多阶段 CNN 在 MPII 与 COCO 基准上达到最先进的 mAP,超越了之前的自下而上方法。
- 使用 PAFs 的贪婪树结构解析在速度上比全连通图优化快数量级,同时保持高准确性。
- 运行时分析表明该方法的扩展性取决于图像内容而非人数,在实验中对 19 人视频达到 8.8 fps。
- 对未标注人员使用掩蔽进行训练可通过减少对缺失标注的惩罚来提高准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。