[论文解读] DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation
本文提出 DeepCut,一种用于多人姿态估计的联合公式化方法,通过在人体部位假设上求解整数线性规划(ILP),同时检测人员并估计其姿态。通过联合建模部件检测、分组和遮挡推理,该方法在多个数据集上实现了最先进性能,相较于两阶段方法在处理遮挡、重叠个体和未知人数方面表现更优。
This paper considers the task of articulated human pose estimation of multiple people in real world images. We propose an approach that jointly solves the tasks of detection and pose estimation: it infers the number of persons in a scene, identifies occluded body parts, and disambiguates body parts between people in close proximity of each other. This joint formulation is in contrast to previous strategies, that address the problem by first detecting people and subsequently estimating their body pose. We propose a partitioning and labeling formulation of a set of body-part hypotheses generated with CNN-based part detectors. Our formulation, an instance of an integer linear program, implicitly performs non-maximum suppression on the set of part candidates and groups them to form configurations of body parts respecting geometric and appearance constraints. Experiments on four different datasets demonstrate state-of-the-art results for both single person and multi person pose estimation. Models and code available at http://pose.mpi-inf.mpg.de.
研究动机与目标
- 解决两阶段方法(先检测人员再估计姿态)的局限性,这些方法在人员靠近或重叠时失效。
- 联合推断人员数量,将身体部位检测分配给个体,并解决重叠或被遮挡部位的歧义。
- 通过建模身体部位之间的几何和外观约束,形成一致的姿态配置。
- 通过禁用或合并部件假设,实现隐式非极大值抑制,并处理截断/遮挡问题。
提出的方法
- 该方法使用基于 CNN 的部件检测器生成一组身体部位假设,将每个检测视为图中的候选节点。
- 将问题公式化为整数线性规划(ILP),将部件候选集划分为相互一致的、与个体相关的配置。
- ILP 中的成对项强制一致性:相同部件(c = c')项将同一身体部位的多个检测归为同一人,而不同部件(c ≠ c')项则连接不同个体的部件。
- ILP 公式化允许通过全局证据合并或禁用冗余或冲突的部件检测,实现隐式非极大值抑制。
- 通过分组部件假设隐式推断人员数量,无需预先进行人员检测。
- 优化使用分支定界法,保证最优性间隙,即使在问题为 NP-难的情况下也能实现可靠推理。
实验结果
研究问题
- RQ1统一公式能否比两阶段方法更有效地在拥挤场景中联合估计人员数量、部件位置和姿态配置?
- RQ2如何将部件检测假设分组为一致且不重叠的、与个体相关的姿态配置,同时处理遮挡和截断问题?
- RQ3与局部每部件抑制相比,利用所有身体部位的全局证据,能否显著改进非极大值抑制?
- RQ4联合优化框架是否比独立姿态估计更稳健地处理重叠人员和模糊的部件分配?
- RQ5与贪婪或顺序方法相比,基于 ILP 的公式化在准确性和一致性方面表现如何?
主要发现
- DeepCut 在四个不同数据集上的单人和多人姿态估计基准测试中均实现了最先进性能。
- 该方法在处理遮挡、重叠个体和模糊部件分配方面显著优于两阶段方法(如 Dense-CNN det ROI)。
- 定性结果表明,DeepCut 能够正确预测被遮挡的身体部位(如被隐藏的手臂或肩膀),并避免将不同人员的部件错误关联。
- 该模型通过基于全局一致性的方法有效实现隐式非极大值抑制,禁用冗余或冲突的部件检测。
- 即使在存在多个重叠个体的复杂场景中,该模型也能成功推断出图像中的人员数量,而无需预先检测人员。
- 失败案例罕见,且通常源于部件检测候选缺失而非错误分组,表明对检测误差具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。