QUICK REVIEW

[论文解读] Maximum-Margin Structured Learning with Deep Networks for 3D Human Pose Estimation

Sijin Li, Weichen Zhang|arXiv (Cornell University)|Aug 27, 2015

Human Pose and Action Recognition参考文献 30被引用 25

一句话总结

本文提出了一种用于从单目图像进行3D人体姿态估计的深度最大边缘结构化学习框架，采用联合图像-姿态嵌入空间，其中得分函数为学习到的嵌入向量的点积。通过边缘损失进行训练，该模型在Human3.6M数据集上实现了最先进性能，可视化结果表明姿态属性（如视角和肢体构型）实现了语义解耦。

ABSTRACT

This paper focuses on structured-output learning using deep neural networks for 3D human pose estimation from monocular images. Our network takes an image and 3D pose as inputs and outputs a score value, which is high when the image-pose pair matches and low otherwise. The network structure consists of a convolutional neural network for image feature extraction, followed by two sub-networks for transforming the image features and pose into a joint embedding. The score function is then the dot-product between the image and pose embeddings. The image-pose embedding and score function are jointly trained using a maximum-margin cost function. Our proposed framework can be interpreted as a special form of structured support vector machines where the joint feature space is discriminatively learned using deep neural networks. We test our framework on the Human3.6m dataset and obtain state-of-the-art results compared to other recent methods. Finally, we present visualizations of the image-pose embedding space, demonstrating the network has learned a high-level embedding of body-orientation and pose-configuration.

研究动机与目标

为解决基于回归的3D姿态估计方法存在的局限性，如关节依赖关系建模不足以及在高维搜索空间中的可扩展性问题。
通过联合优化深度图像特征和姿态特征嵌入，并引入判别性得分函数，改进结构化输出学习。
通过学习紧凑且具有判别性的嵌入空间，实现在大规模候选姿态集合上的高效推理。
学习一种联合嵌入，以捕捉人体姿态的高层语义属性，如身体朝向和肢体定位。

提出的方法

卷积神经网络（CNN）从输入的单目图像中提取图像特征。
独立的子网络将图像特征和3D姿态输入映射到共享的联合嵌入空间。
得分函数定义为图像嵌入与姿态嵌入之间的点积，表示其相似性。
整个网络通过最大边缘损失进行端到端训练，强制使真实图像-姿态对的得分高于错误配对的得分。
边缘基于姿态之间的MPJPE（每关节位置误差均值）计算，从而在嵌入空间中诱导出具有拓扑意义的结构。
候选姿态的嵌入可预先离线计算，从而在测试阶段实现快速推理。

实验结果

研究问题

RQ1深度神经网络能否联合学习具有判别性的图像和姿态嵌入，以捕捉3D人体姿态中的结构化依赖关系？
RQ2与标准回归或分类方法相比，最大边缘训练目标是否能提升3D姿态估计的泛化能力和鲁棒性？
RQ3所学习的嵌入空间能否实现有意义的语义属性解耦，例如视角和肢体构型？
RQ4在Human3.6M等基准数据集上，该方法与最先进方法相比表现如何？

主要发现

该模型在Human3.6M数据集的隐藏测试集上实现了最先进性能，平均MPJPE为92.70 mm。
在训练图像上，预测的最高分姿态与真实姿态在30 mm MPJPE范围内的匹配率达到97%。
所学习嵌入空间的可视化结果表明，前两个主成分分别编码了身体朝向和腿部定位信息。
图像嵌入与姿态嵌入对齐良好，97%的最高分姿态与真实姿态的MPJPE在30 mm以内。
该框架泛化能力良好，由于姿态嵌入可预先离线计算，因此可在大规模候选姿态集合上实现高效推理。
由于最大边缘约束的存在，即使未使用时间序列信息，嵌入空间依然保持平滑且具有拓扑结构。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。