[论文解读] Maximum-Margin Structured Learning with Deep Networks for 3D Human Pose Estimation
本文提出了一种用于从单目图像进行3D人体姿态估计的深度最大边缘结构化学习框架,采用联合图像-姿态嵌入空间,其中得分函数为学习到的嵌入向量的点积。通过边缘损失进行训练,该模型在Human3.6M数据集上实现了最先进性能,可视化结果表明姿态属性(如视角和肢体构型)实现了语义解耦。
This paper focuses on structured-output learning using deep neural networks for 3D human pose estimation from monocular images. Our network takes an image and 3D pose as inputs and outputs a score value, which is high when the image-pose pair matches and low otherwise. The network structure consists of a convolutional neural network for image feature extraction, followed by two sub-networks for transforming the image features and pose into a joint embedding. The score function is then the dot-product between the image and pose embeddings. The image-pose embedding and score function are jointly trained using a maximum-margin cost function. Our proposed framework can be interpreted as a special form of structured support vector machines where the joint feature space is discriminatively learned using deep neural networks. We test our framework on the Human3.6m dataset and obtain state-of-the-art results compared to other recent methods. Finally, we present visualizations of the image-pose embedding space, demonstrating the network has learned a high-level embedding of body-orientation and pose-configuration.
研究动机与目标
- 为解决基于回归的3D姿态估计方法存在的局限性,如关节依赖关系建模不足以及在高维搜索空间中的可扩展性问题。
- 通过联合优化深度图像特征和姿态特征嵌入,并引入判别性得分函数,改进结构化输出学习。
- 通过学习紧凑且具有判别性的嵌入空间,实现在大规模候选姿态集合上的高效推理。
- 学习一种联合嵌入,以捕捉人体姿态的高层语义属性,如身体朝向和肢体定位。
提出的方法
- 卷积神经网络(CNN)从输入的单目图像中提取图像特征。
- 独立的子网络将图像特征和3D姿态输入映射到共享的联合嵌入空间。
- 得分函数定义为图像嵌入与姿态嵌入之间的点积,表示其相似性。
- 整个网络通过最大边缘损失进行端到端训练,强制使真实图像-姿态对的得分高于错误配对的得分。
- 边缘基于姿态之间的MPJPE(每关节位置误差均值)计算,从而在嵌入空间中诱导出具有拓扑意义的结构。
- 候选姿态的嵌入可预先离线计算,从而在测试阶段实现快速推理。
实验结果
研究问题
- RQ1深度神经网络能否联合学习具有判别性的图像和姿态嵌入,以捕捉3D人体姿态中的结构化依赖关系?
- RQ2与标准回归或分类方法相比,最大边缘训练目标是否能提升3D姿态估计的泛化能力和鲁棒性?
- RQ3所学习的嵌入空间能否实现有意义的语义属性解耦,例如视角和肢体构型?
- RQ4在Human3.6M等基准数据集上,该方法与最先进方法相比表现如何?
主要发现
- 该模型在Human3.6M数据集的隐藏测试集上实现了最先进性能,平均MPJPE为92.70 mm。
- 在训练图像上,预测的最高分姿态与真实姿态在30 mm MPJPE范围内的匹配率达到97%。
- 所学习嵌入空间的可视化结果表明,前两个主成分分别编码了身体朝向和腿部定位信息。
- 图像嵌入与姿态嵌入对齐良好,97%的最高分姿态与真实姿态的MPJPE在30 mm以内。
- 该框架泛化能力良好,由于姿态嵌入可预先离线计算,因此可在大规模候选姿态集合上实现高效推理。
- 由于最大边缘约束的存在,即使未使用时间序列信息,嵌入空间依然保持平滑且具有拓扑结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。