Skip to main content
QUICK REVIEW

[论文解读] Combining Local Appearance and Holistic View: Dual-Source Deep Neural Networks for Human Pose Estimation

Xiaochuan Fan, Kang Zheng|arXiv (Cornell University)|Apr 27, 2015
Human Pose and Action Recognition参考文献 32被引用 92
一句话总结

本文提出双源卷积神经网络(DS-CNN)用于2D人体姿态估计,通过联合利用图像块中的局部部件外观和全身视图中的整体身体上下文,提升关键点检测与定位的准确性。该方法通过在部件块和全身块上联合训练,实现了在FLIC和LSP数据集上的最先进性能,优于DeepPose和Tompson等人等方法,在存在大范围定位误差的复杂情况下表现更优。

ABSTRACT

We propose a new learning-based method for estimating 2D human pose from a single image, using Dual-Source Deep Convolutional Neural Networks (DS-CNN). Recently, many methods have been developed to estimate human pose by using pose priors that are estimated from physiologically inspired graphical models or learned from a holistic perspective. In this paper, we propose to integrate both the local (body) part appearance and the holistic view of each local part for more accurate human pose estimation. Specifically, the proposed DS-CNN takes a set of image patches (category-independent object proposals for training and multi-scale sliding windows for testing) as the input and then learns the appearance of each local part by considering their holistic views in the full body. Using DS-CNN, we achieve both joint detection, which determines whether an image patch contains a body joint, and joint localization, which finds the exact location of the joint in the image patch. Finally, we develop an algorithm to combine these joint detection/localization results from all the image patches for estimating the human pose. The experimental results show the effectiveness of the proposed method by comparing to the state-of-the-art human-pose estimation methods based on pose priors that are estimated from physiologically inspired graphical models or learned from a holistic perspective.

研究动机与目标

  • 为解决在大姿态变化、遮挡和外观多样性情况下的2D人体姿态估计准确性挑战。
  • 通过整合局部部件外观与全局身体上下文,提升关键点检测与定位的可靠性。
  • 克服基于部件的模型以及单源CNN缺乏上下文感知能力或判别性局部特征的局限性。
  • 开发一种统一的深度学习框架,通过双输入图像块实现关键点检测与定位。
  • 展示在现有基于CNN和图模型的姿态估计方法中具有更优的性能。

提出的方法

  • 该方法使用类别无关的对象提议作为局部部件块,全幅图像作为整体上下文块用于训练。
  • 在成对输入上训练双源CNN(DS-CNN):局部部件块(p_p)和对应全幅块(p_b),其中p_b包含局部部件的二值掩码。
  • DS-CNN执行两项任务:关键点检测(判断图像块是否包含关键点)与关键点定位(在图像块内精确定位关键点坐标)。
  • 推理阶段,使用多尺度滑动窗口替代对象提议,以确保密集覆盖并避免分布不均。
  • 从所有窗口的关键点检测得分构建热力图,并对高置信度区域的定位结果进行加权平均,以优化最终关键点位置。
  • 模型使用Caffe实现,并端到端训练,联合优化检测与定位任务。

实验结果

研究问题

  • RQ1结合局部外观与整体身体上下文是否能提升2D人体姿态估计的准确性?
  • RQ2处理部件块与全幅块的双源CNN架构是否在关键点检测与定位上优于单源模型?
  • RQ3引入整体上下文对复杂姿态与被遮挡关键点的性能有何影响?
  • RQ4所提方法是否能超越依赖图模型或单分支CNN的最先进方法?
  • RQ5每种输入模态(局部部件与全幅图像)对最终检测性能的贡献如何?

主要发现

  • 所提DS-CNN方法在FLIC和LSP数据集上均取得优越性能,Part Detection Joint (PDJ)指标优于DeepPose及其他最先进方法。
  • 在FLIC数据集上,当归一化距离超过0.15(肘部)或0.18(腕部)时,所提方法除Tompson等人外,优于所有对比方法。
  • 在LSP数据集上,所提方法在大归一化距离下的性能提升幅度显著超过Tompson等人,表明对大定位误差具有更强鲁棒性。
  • 消融实验表明,使用双源输入(p_p与p_b)可达到最高平均精度(mAP),显著优于仅使用部件块或仅使用全幅块的模型。
  • 特征图可视化结果表明,DS-CNN学习到了结合局部部件形状与全局姿态构型的判别性模式,如弯曲的肘部或髋部。
  • 定性结果表明,即使在关键点被遮挡的情况下,该方法仍能成功估计姿态,尤其在LSP数据集的复杂与全幅姿态中表现优异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。