QUICK REVIEW

[论文解读] Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation

Jonathan Tompson, Arjun Jain|arXiv (Cornell University)|Jun 11, 2014

Human Pose and Action Recognition参考文献 31被引用 972

一句话总结

本文提出一种联合学习框架，将用于部件检测的深度卷积神经网络（ConvNet）与受马尔可夫随机场（MRF）启发的空间模型相结合，以提升单目图像中的人体姿态估计性能。通过端到端联合训练两个组件，该方法利用结构先验和多分辨率特征，在FLIC和LSP数据集上实现了最先进性能，检测准确率在较大误差阈值下最高提升了12%。

ABSTRACT

This paper proposes a new hybrid architecture that consists of a deep Convolutional Network and a Markov Random Field. We show how this architecture is successfully applied to the challenging problem of articulated human pose estimation in monocular images. The architecture can exploit structural domain constraints such as geometric relationships between body joint locations. We show that joint training of these two model paradigms improves performance and allows us to significantly outperform existing state-of-the-art techniques.

研究动机与目标

为解决在非约束单目图像中人体关节姿态估计的挑战，其中遮挡、形变和复杂外观会阻碍关节的精确定位。
将结构先验（如身体关节之间的几何关系）整合进深度学习模型中，而这些模型通常缺乏对部件相互依赖关系的显式建模。
开发一种统一的训练框架，联合优化ConvNet部件检测器与空间推理模型，以提升鲁棒性与准确性。
证明基于消息传递机制的空间模型推理可实现可微分，并可通过反向传播在深度学习流水线中进行端到端训练。

提出的方法

使用具有重叠感受野的多分辨率ConvNet生成每个像素的热力图，表示关键点位置的可能性。
将基于环状信念传播的空模型集成到网络中，近似MRF推理，实现对关节配置的结构化预测。
空间模型的消息传递机制是可微分的，并可通过反向传播反向传播，使ConvNet与空间模型能够使用标准随机梯度下降进行联合训练。
在新构建的、按场景划分的数据集FLIC-plus上进行端到端训练，确保测试集与训练数据相互独立。
在推理阶段引入躯干边界框热力图输入，以帮助在场景中区分多人时的歧义。
通过粗粒度元优化调整超参数，在100ms推理预算内最大化验证集性能。

实验结果

研究问题

RQ1结合深度ConvNet与可微分图模型的混合架构能否在人体姿态估计准确率上超越当前最先进方法？
RQ2ConvNet与基于MRF的空间模型的端到端联合训练在建模身体部件相互依赖关系方面效果如何？
RQ3通过可微分空间模型引入结构先验在多大程度上能减少定位误差，尤其是在遮挡或高关节活动情况下？
RQ4使用多分辨率特征表示与重叠感受野是否能增强复杂场景下的检测鲁棒性？

主要发现

与仅训练部件检测器相比，ConvNet与基于MRF的空间模型的联合训练在大误差阈值下将检测准确率提升了4–5%。
仅使用空间模型便在大半径阈值下使性能提升了8–12%，证明其在优化空间一致关节预测方面的有效性。
在FLIC测试集上，该模型在肘部与腕部关节定位方面表现更优，尤其在较大误差半径下提升显著。
在LSP数据集上，该模型在使用以人物为中心坐标系时优于先前最先进方法，证实了其在不同数据集间的泛化能力。
引入多分辨率特征分支可提升性能，且感受野大小与池化阶段的设置对准确率有显著影响。
该模型可近实时运行，单张图像推理时间低于100ms，适用于实际部署。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。