Skip to main content
QUICK REVIEW

[论文解读] Learning Human Pose Estimation Features with Convolutional Networks

Arjun Jain, Jonathan Tompson|arXiv (Cornell University)|Dec 27, 2013
Human Pose and Action Recognition参考文献 43被引用 169
一句话总结

本文提出了一种用于无约束人体姿态估计的端到端卷积神经网络(CNN)架构,在FLIC数据集上优于最先进的可变形部件模型(DPMs)和CVPR13 MODEC检测器。通过利用深度卷积网络学习低层特征,并应用一种简单而全局的空间模型来优化部件检测,该方法在手腕和肘部关节的检测上表现出更优的准确性,表明复杂的运动学结构并非如先前认为的那样关键。

ABSTRACT

This paper introduces a new architecture for human pose estimation using a multi- layer convolutional network architecture and a modified learning technique that learns low-level features and higher-level weak spatial models. Unconstrained human pose estimation is one of the hardest problems in computer vision, and our new architecture and learning schema shows significant improvement over the current state-of-the-art results. The main contribution of this paper is showing, for the first time, that a specific variation of deep learning is able to outperform all existing traditional architectures on this task. The paper also discusses several lessons learned while researching alternatives, most notably, that it is possible to learn strong low-level feature detectors on features that might even just cover a few pixels in the image. Higher-level spatial models improve somewhat the overall result, but to a much lesser extent then expected. Many researchers previously argued that the kinematic structure and top-down information is crucial for this domain, but with our purely bottom up, and weak spatial model, we could improve other more complicated architectures that currently produce the best results. This mirrors what many other researchers, like those in the speech recognition, object recognition, and other domains have experienced.

研究动机与目标

  • 开发一种无需依赖手工设计特征或复杂结构先验的端到端深度学习框架,用于无约束人体姿态估计。
  • 探究深度卷积网络是否能够学习到有效的低层特征和空间关系,以支持人体姿态估计。
  • 评估高层空间模型对姿态估计性能的影响,尤其与传统部件模型进行对比。
  • 确定纯粹自下而上的弱监督方法是否能够超越包含显式运动学约束的更复杂自上而下架构。

提出的方法

  • 该方法采用多层卷积网络,直接从图像块中学习低层特征,替代传统的手工设计特征(如SIFT或HoG)。
  • 通过一个两阶段过滤过程,利用部件层次结构信息,使用第二个网络对部件检测的响应图进行去噪。
  • 空间模型应用全局位置先验来优化检测结果,减少误检并提升定位精度。
  • 网络使用随机梯度下降(SGD)配合反向传播在GPU上进行训练,采用Theano实现高效的符号微分与批量处理。
  • 推理阶段,网络执行全图卷积而非逐个处理图像块,显著降低推理时间。
  • 最终关节点位置选择为在多尺度下置信度最高的那个。

实验结果

研究问题

  • RQ1深度卷积网络是否能够在不使用手工设计特征的情况下,学习到有效的人体姿态估计低层特征?
  • RQ2与仅使用局部特征的端到端学习相比,高层空间模型在多大程度上提升了姿态估计的准确性?
  • RQ3简单的全局空间模型是否优于编码了运动学约束的更复杂结构化模型?
  • RQ4纯粹自下而上的弱监督方法是否能够在无约束姿态估计中超越更复杂的自上而下架构?

主要发现

  • 所提方法在5像素阈值下,于所有三个评估关节点(手腕、肘部、肩部)上均优于CVPR13 MODEC检测器和最先进的DPMs。
  • 空间模型使手腕和肘部关节点的定位精度提升约5%,并减少了误检。
  • 对于肩部关节点,当阈值较大时,空间模型性能略有下降,可能由于肘部检测效果不佳所致。
  • 结果表明,复杂结构模型的重要性低于预期,简单的全局空间先验即可实现最佳性能。
  • 该方法表明,深度学习即使在仅覆盖几个像素的小图像区域上,也能有效学习精确且局部化的特征。
  • 该框架以比以往方法更简单的架构实现了最先进性能,表明通过端到端训练进行表征学习在该任务中极为有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。