[论文解读] RMPE: Regional Multi-person Pose Estimation
该论文提出RMPE,一种区域多人员姿态估计框架,可提升单人姿态估计器(SPPE)在人体检测框不准确情况下的性能。通过集成对称空间变换网络(SSTN)、参数化姿态非极大值抑制(NMS)以及姿态引导的提议生成器(PGPG),RMPE在MPII多人员数据集上达到76.7 mAP,显著优于先前方法,同时有效处理定位误差与冗余检测。
Multi-person pose estimation in the wild is challenging. Although state-of-the-art human detectors have demonstrated good performance, small errors in localization and recognition are inevitable. These errors can cause failures for a single-person pose estimator (SPPE), especially for methods that solely depend on human detection results. In this paper, we propose a novel regional multi-person pose estimation (RMPE) framework to facilitate pose estimation in the presence of inaccurate human bounding boxes. Our framework consists of three components: Symmetric Spatial Transformer Network (SSTN), Parametric Pose Non-Maximum-Suppression (NMS), and Pose-Guided Proposals Generator (PGPG). Our method is able to handle inaccurate bounding boxes and redundant detections, allowing it to achieve a 17% increase in mAP over the state-of-the-art methods on the MPII (multi person) dataset.Our model and source codes are publicly available.
研究动机与目标
- 解决单人姿态估计器(SPPE)在多人场景中对不准确或冗余的人体检测框的脆弱性。
- 克服两阶段姿态估计框架的局限性,后者的姿态精度严重依赖于人体检测器的质量。
- 减少因拥挤场景中人体重叠或定位错误导致的误报和姿态歧义。
- 通过姿态引导的提议生成器实现数据增强,提升训练数据多样性与模型泛化能力。
- 开发一种高效、可学习的姿态NMS机制,无需依赖手工设定的阈值即可消除冗余姿态预测。
提出的方法
- 引入一种带有并行SPPE分支的对称空间变换网络(SSTN),以优化并稳定来自不准确检测框的特征提取。
- 设计一种参数化姿态非极大值抑制(NMS)模块,学习姿态距离度量以比较并消除冗余的姿态预测。
- 提出一种姿态引导的提议生成器(PGPG),通过建模给定姿态下人体提议的条件分布,实现通过真实感合成样本进行数据增强。
- 使用PGPG生成的合成数据训练SSTN+SPPE模块,以提升对定位误差的鲁棒性。
- 通过可微损失函数优化参数化姿态NMS,从数据中学习最优抑制阈值。
- 将所有组件整合为一个端到端可训练的流水线,提升在真实检测误差下的SPPE性能。
实验结果
研究问题
- RQ1当检测框不准确或冗余时,区域姿态估计框架能否提升SPPE的性能?
- RQ2与传统NMS相比,可学习的、姿态感知的NMS机制在减少冗余姿态预测方面的有效性如何?
- RQ3数据驱动的提议生成器在多大程度上能提升模型泛化能力与对检测误差的鲁棒性?
- RQ4在定位噪声下,对称空间变换与通过并行SPPE提供的辅助监督是否能提升特征质量?
- RQ5当使用真实标注的提议时,两阶段框架能多接近理论性能上限?
主要发现
- RMPE在MPII多人员数据集上达到76.7 mAP,优于相同评估协议下的最先进方法。
- 消融实验表明,移除参数化姿态NMS会导致mAP显著下降,证实其在减少冗余检测中的关键作用。
- 姿态引导的提议生成器(PGPG)提升了训练数据质量,当移除数据增强后mAP降至73.0%。
- 带有并行SPPE分支的对称STN提升了特征学习能力,移除并行分支会降低性能,表明其在稳定训练中的作用。
- 当使用真实标注的边界框时,该框架达到84.2% mAP,表明其已接近两阶段范式的理论性能上限。
- 所提出的参数化NMS比先前最先进实现快34.6倍(1,300张图像上分别为1.8秒与62.2秒),展现出高效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。