[论文解读] Articulated Pose Estimation by a Graphical Model with Image Dependent Pairwise Relations
本文提出一种用于人体姿态估计的图模型,通过利用图像依赖的成对关系(IDPRs)来提升空间推理能力。该方法使用深度卷积神经网络(DCNNs)从局部图像块中预测部件存在性与相对关节位置,结合了图模型的灵活性与DCNN的表征能力,在LSP和FLIC数据集上达到最先进性能,并在Buffy数据集上实现强大的零样本泛化能力,无需微调。
We present a method for estimating articulated human pose from a single static image based on a graphical model with novel pairwise relations that make adaptive use of local image measurements. More precisely, we specify a graphical model for human pose which exploits the fact the local image measurements can be used both to detect parts (or joints) and also to predict the spatial relationships between them (Image Dependent Pairwise Relations). These spatial relationships are represented by a mixture model. We use Deep Convolutional Neural Networks (DCNNs) to learn conditional probabilities for the presence of parts and their spatial relationships within image patches. Hence our model combines the representational flexibility of graphical models with the efficiency and statistical power of DCNNs. Our method significantly outperforms the state of the art methods on the LSP and FLIC datasets and also performs very well on the Buffy dataset without any training.
研究动机与目标
- 通过建模随局部图像上下文变化的肢体部件间空间关系,提升人体姿态估计性能。
- 解决图模型中固定、与数据无关的成对先验的局限性,这些先验对多变的人体姿态而言过于松散或过于僵化。
- 通过DCNN提取图像依赖的线索,实现部件检测与相对关节定位的联合建模,实现深度学习与结构化预测的融合。
- 在数据集之间实现强大泛化能力,包括在Buffy数据集上无需微调的零样本性能。
提出的方法
- 该方法将人体姿态建模为K个节点的树状图模型,其中节点代表身体部件,边代表空间关系。
- 一元项使用DCNN基于每个关节位置周围的局部图像块估计部件存在性。
- 成对项为图像依赖项,建模为多种空间关系类型的混合,其相对位置由局部图像上下文学习得到。
- 模型使用结合一元外观项与图像依赖的成对关系项的得分函数,参数通过结构化SVM进行训练。
- 空间关系被离散化为若干类型,每类具有平均相对位置与二次形变项,以建模局部可变性。
- 训练一个DCNN以从局部图像块中同时预测部件存在性与成对关系类型,实现部件与关系之间的共享特征学习。
实验结果
研究问题
- RQ1关节周围的局部图像块是否不仅能提供可靠的关节检测信息,还能提供其邻近关节相对位置的可靠预测?
- RQ2将成对关系建模为图像依赖项而非固定先验,是否能提升姿态估计的准确性?
- RQ3结合图模型与DCNN的混合模型是否能优于端到端的深度学习方法,在性能与泛化能力上表现更优?
- RQ4引入图像依赖的成对关系对标准基准测试与零样本设置下的性能有何影响?
主要发现
- 该方法在LSP数据集上达到最先进性能,完整模型的严格PCP得分为75.0%,显著优于基线方法。
- 在FLIC数据集上,该方法优于先前的最先进方法,展现出更优的部件定位与空间推理能力。
- 在Buffy数据集上,该方法在未进行任何训练的情况下达到92.9%的平均PCP,展现出强大的零样本泛化能力。
- 消融实验表明,若移除图像依赖的成对关系(No-IDPRs),性能下降至64.6%的平均PCP;若仅使用一元项,性能进一步降至40.5%,证明IDPRs的关键作用。
- Buffy数据集上的PDJ曲线显示,该方法优于DeepPose及其他SOTA方法,尤其在高阈值下表现更优,证实其更强的泛化能力。
- IDPRs带来的性能增益在下肢等困难部件以及遮挡情况下最为显著,表明模型鲁棒性得到提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。