QUICK REVIEW

[论文解读] Single-Stage Multi-Person Pose Machines

Xuecheng Nie, Jianfeng Zhang|arXiv (Cornell University)|Aug 24, 2019

Human Pose and Action Recognition参考文献 35被引用 26

一句话总结

本文提出单阶段多人姿态网络（SPM），这是首个用于多人2D/3D姿态估计的单阶段模型，采用一种新颖的结构化姿态表征（SPR），通过根关节与位移向量统一表示人体实例与关节点位置。SPM在MPII、COCO和CMU Panoptic基准上实现了最先进的推理速度——比之前方法快8倍，同时保持了具有竞争力的精度，证明了其在不牺牲性能的前提下具备卓越的效率。

ABSTRACT

Multi-person pose estimation is a challenging problem. Existing methods are mostly two-stage based--one stage for proposal generation and the other for allocating poses to corresponding persons. However, such two-stage methods generally suffer low efficiency. In this work, we present the first single-stage model, Single-stage multi-person Pose Machine (SPM), to simplify the pipeline and lift the efficiency for multi-person pose estimation. To achieve this, we propose a novel Structured Pose Representation (SPR) that unifies person instance and body joint position representations. Based on SPR, we develop the SPM model that can directly predict structured poses for multiple persons in a single stage, and thus offer a more compact pipeline and attractive efficiency advantage over two-stage methods. In particular, SPR introduces the root joints to indicate different person instances and human body joint positions are encoded into their displacements w.r.t. the roots. To better predict long-range displacements for some joints, SPR is further extended to hierarchical representations. Based on SPR, SPM can efficiently perform multi-person poses estimation by simultaneously predicting root joints (location of instances) and body joint displacements via CNNs. Moreover, to demonstrate the generality of SPM, we also apply it to multi-person 3D pose estimation. Comprehensive experiments on benchmarks MPII, extended PASCAL-Person-Part, MSCOCO and CMU Panoptic clearly demonstrate the state-of-the-art efficiency of SPM for multi-person 2D/3D pose estimation, together with outstanding accuracy.

研究动机与目标

解决两阶段多人姿态估计方法效率低下的问题，这些方法需要分别进行人体检测与关节点回归。
将人体实例定位与身体关节点预测统一到一个端到端的流水线中，以减少计算冗余。
提出一种新型姿态表征方式，通过将关节点位置相对于根关节编码，实现单阶段推理。
将该表征扩展为分层形式，以更好地建模刚性身体结构中的长距离关节点位移。
证明该方法在2D与3D多人姿态估计中均具有良好的泛化能力，并实现高效率。

提出的方法

提出结构化姿态表征（SPR），其中每个人体实例由一个根关节表示，所有身体关节点均以相对于其根关节的2D或3D位移向量编码。
设计一种分层SPR变体，将长距离位移沿运动链分解为级联的短距离位移，从而提升回归精度。
采用基于CNN的网络架构（具体基于Hourglass网络）实现SPM模型，通过一次前向传播同时回归根关节位置与位移向量。
使用多任务损失函数进行端到端训练，联合优化根关节回归与位移预测，适用于2D与3D姿态估计。
通过将位移表征扩展至3D空间，并使用CMU Panoptic数据集中的3D关节点标注，将模型适配至3D姿态估计任务。
在MPII、PASCAL-Person-Part、COCO与CMU Panoptic数据集上应用数据增强与标准训练协议，以确保模型的鲁棒性与泛化能力。

实验结果

研究问题

RQ1单阶段深度学习模型是否能在显著提升推理速度的同时，实现与两阶段方法相当的多人2D姿态估计精度？
RQ2一种将关节点位置相对于根关节编码的结构化姿态表征，在实现端到端单阶段推理方面效果如何？
RQ3分层SPR是否能在不增加模型复杂度的前提下，有效提升对长距离关节点位移的建模能力？
RQ4所提出的SPM框架是否能有效泛化至从单张RGB图像进行3D多人姿态估计？
RQ5与当前最先进的两阶段模型相比，单阶段方法在速度与精度之间存在怎样的权衡？

主要发现

在扩展的PASCAL-Person-Part数据集上，SPM实现了46.1%的mAP，创下该基准的新SOTA精度记录。
在MSCOCO测试开发集上，SPM达到0.669 AP，略低于SOTA的0.687，但推理速度提升8倍（每张图像仅需0.058秒）。
在CMU Panoptic数据集上，SPM在多人3D姿态估计任务中取得77.8%的3D-PCK，展现出在大规模3D基准上的强劲性能。
模型在CMU Panoptic数据集上运行速度约为20 FPS，证明了其在单张RGB图像下3D姿态估计的高效率。
定性结果表明，模型对遮挡、尺度变化及多人重叠等复杂场景具有强鲁棒性，验证了其在挑战性场景下的泛化能力。
分层SPR变体能有效建模长距离位移，提升精度且未增加计算开销。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。