Skip to main content
QUICK REVIEW

[论文解读] Maximum-Margin Structured Learning with Deep Networks for 3D Human Pose Estimation

Sijin Li, Weichen Zhang|arXiv (Cornell University)|Aug 27, 2015
Human Pose and Action Recognition参考文献 30被引用 25
一句话总结

本文提出了一种用于从单目图像进行3D人体姿态估计的深度最大边缘结构化学习框架,采用联合图像-姿态嵌入空间,其中得分函数为学习到的嵌入向量的点积。通过边缘损失进行训练,该模型在Human3.6M数据集上实现了最先进性能,可视化结果表明姿态属性(如视角和肢体构型)实现了语义解耦。

ABSTRACT

This paper focuses on structured-output learning using deep neural networks for 3D human pose estimation from monocular images. Our network takes an image and 3D pose as inputs and outputs a score value, which is high when the image-pose pair matches and low otherwise. The network structure consists of a convolutional neural network for image feature extraction, followed by two sub-networks for transforming the image features and pose into a joint embedding. The score function is then the dot-product between the image and pose embeddings. The image-pose embedding and score function are jointly trained using a maximum-margin cost function. Our proposed framework can be interpreted as a special form of structured support vector machines where the joint feature space is discriminatively learned using deep neural networks. We test our framework on the Human3.6m dataset and obtain state-of-the-art results compared to other recent methods. Finally, we present visualizations of the image-pose embedding space, demonstrating the network has learned a high-level embedding of body-orientation and pose-configuration.

研究动机与目标

  • 为解决基于回归的3D姿态估计方法存在的局限性,如关节依赖关系建模不足以及在高维搜索空间中的可扩展性问题。
  • 通过联合优化深度图像特征和姿态特征嵌入,并引入判别性得分函数,改进结构化输出学习。
  • 通过学习紧凑且具有判别性的嵌入空间,实现在大规模候选姿态集合上的高效推理。
  • 学习一种联合嵌入,以捕捉人体姿态的高层语义属性,如身体朝向和肢体定位。

提出的方法

  • 卷积神经网络(CNN)从输入的单目图像中提取图像特征。
  • 独立的子网络将图像特征和3D姿态输入映射到共享的联合嵌入空间。
  • 得分函数定义为图像嵌入与姿态嵌入之间的点积,表示其相似性。
  • 整个网络通过最大边缘损失进行端到端训练,强制使真实图像-姿态对的得分高于错误配对的得分。
  • 边缘基于姿态之间的MPJPE(每关节位置误差均值)计算,从而在嵌入空间中诱导出具有拓扑意义的结构。
  • 候选姿态的嵌入可预先离线计算,从而在测试阶段实现快速推理。

实验结果

研究问题

  • RQ1深度神经网络能否联合学习具有判别性的图像和姿态嵌入,以捕捉3D人体姿态中的结构化依赖关系?
  • RQ2与标准回归或分类方法相比,最大边缘训练目标是否能提升3D姿态估计的泛化能力和鲁棒性?
  • RQ3所学习的嵌入空间能否实现有意义的语义属性解耦,例如视角和肢体构型?
  • RQ4在Human3.6M等基准数据集上,该方法与最先进方法相比表现如何?

主要发现

  • 该模型在Human3.6M数据集的隐藏测试集上实现了最先进性能,平均MPJPE为92.70 mm。
  • 在训练图像上,预测的最高分姿态与真实姿态在30 mm MPJPE范围内的匹配率达到97%。
  • 所学习嵌入空间的可视化结果表明,前两个主成分分别编码了身体朝向和腿部定位信息。
  • 图像嵌入与姿态嵌入对齐良好,97%的最高分姿态与真实姿态的MPJPE在30 mm以内。
  • 该框架泛化能力良好,由于姿态嵌入可预先离线计算,因此可在大规模候选姿态集合上实现高效推理。
  • 由于最大边缘约束的存在,即使未使用时间序列信息,嵌入空间依然保持平滑且具有拓扑结构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。