Skip to main content
QUICK REVIEW

[论文解读] Compositional Human Pose Regression

Xiao Sun, Jiaxiang Shang|arXiv (Cornell University)|Apr 1, 2017
Human Pose and Action Recognition被引用 55
一句话总结

本文提出了一种结构感知的回归方法,使用骨骼来表示姿态,并利用组合损失来利用骨架结构,从而提升3D和2D姿态估计,并实现混合2D/3D数据的统一训练。

ABSTRACT

Regression based methods are not performing as well as detection based methods for human pose estimation. A central problem is that the structural information in the pose is not well exploited in the previous regression methods. In this work, we propose a structure-aware regression approach. It adopts a reparameterized pose representation using bones instead of joints. It exploits the joint connection structure to define a compositional loss function that encodes the long range interactions in the pose. It is simple, effective, and general for both 2D and 3D pose estimation in a unified setting. Comprehensive evaluation validates the effectiveness of our approach. It significantly advances the state-of-the-art on Human3.6M and is competitive with state-of-the-art results on MPII.

研究动机与目标

  • 促使基于回归的姿态估计,结合姿态结构与传统检测方法来提升性能。
  • 提出基于骨骼的姿态表示,以产生比关节更稳定、可学习的特征。
  • 引入一种组合损失,沿骨架路径强制实现长程一致性。
  • 展示对2D和3D姿态回归的统一训练,包括混合2D/3D数据。
  • 在3D(Human3.6M)和2D(MPII)基准上进行评估,并与最先进方法进行比较。

提出的方法

  • 将姿态从关节重新参数化为骨骼,定义为 B_k = J_parent(k) - J_k。
  • 最小化基于骨骼的回归损失 L(B),形式为 L(B) = sum_k || tilde(B_k) - tilde(B_k_gt) ||_1。
  • 引入一个组合长程损失 L(B, P),在骨骼路径上强制实现相对关节点位置 Delta J_u,v,计算为路径上的骨骼之和,并带有可微分的组合层。
  • 考虑多组关节对集合 P(关节、骨骼、两者、全部)以评估利用骨架结构的影响。
  • 支持统一的2D/3D回归,输出大小为 2K 或 3K,混合训练数据,以及分解为 xy 和 z 分量的共享损失。
  • 以 ResNet-50 作为骨干网络,在 ImageNet 上进行预训练,使用 SGD 微调 25 轮,采用标准数据增强和两块GPU训练。

实验结果

研究问题

  • RQ1与直接的关节回归相比,基于骨骼的表示和组合损失是否更能捕捉到姿态结构?
  • RQ2利用长程骨架约束是否能够提高3D和2D姿态的准确性以及几何有效性?
  • RQ3在训练中混合2D与3D数据以实现统一姿态回归是否有益?
  • RQ4在3D Human3.6M和2D MPII基准上,相对于最先进的方法,所提出的方法表现如何?
  • RQ5哪些指标能揭示超越传统关节定位精度的几何有效性?

主要发现

  • 基于骨骼的表示相比关节基线,产生更稳定的骨长和改进的几何约束指标。
  • 组合损失(特别是使用所有关节对时)显著提升了 Human3.6M 上的关节和骨骼误差、骨骼稳定性和关节角度的合法性。
  • 将 MPII 2D 数据加入训练可显著降低 Joint Error(例如,在 Protocol 2 下从 102.2 降至 64.2)。
  • Ours (all) 在回归方法中达到最先进的结果,在 MPII 上与基于检测的方法相比也具竞争力。
  • 在 Human3.6M 上,Ours (all) 在所报设定下将 Joint Error 降至 92.4 mm,PA Joint Error 降至 67.5 mm,使用混合 2D+3D 数据时有进一步提升。
  • 该方法对野外MPII图像产生了合理的3D姿态,表明具有迁移学习潜力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。