Skip to main content
QUICK REVIEW

[论文解读] Deep Learning-Based Human Pose Estimation: A Survey

Ce Zheng, Wenhan Wu|arXiv (Cornell University)|Dec 24, 2020
Human Pose and Action Recognition参考文献 276被引用 84
一句话总结

本综述回顾了基于深度学习的 2D 和 3D 人体姿态估计的最新方法,概述了方法、数据集、评估指标、应用和未来方向。它覆盖了超过 260 篇论文,比较了性能,并讨论了遮挡和数据稀缺等挑战。

ABSTRACT

Human pose estimation aims to locate the human body parts and build human body representation (e.g., body skeleton) from input data such as images and videos. It has drawn increasing attention during the past decade and has been utilized in a wide range of applications including human-computer interaction, motion analysis, augmented reality, and virtual reality. Although the recently developed deep learning-based solutions have achieved high performance in human pose estimation, there still remain challenges due to insufficient training data, depth ambiguities, and occlusion. The goal of this survey paper is to provide a comprehensive review of recent deep learning-based solutions for both 2D and 3D pose estimation via a systematic analysis and comparison of these solutions based on their input data and inference procedures. More than 250 research papers since 2014 are covered in this survey. Furthermore, 2D and 3D human pose estimation datasets and evaluation metrics are included. Quantitative performance comparisons of the reviewed methods on popular datasets are summarized and discussed. Finally, the challenges involved, applications, and future research directions are concluded. A regularly updated project page is provided: \url{https://github.com/zczcwh/DL-HPE}

研究动机与目标

  • 提供对近年的基于深度学习的 2D 和 3D HPE 方法的系统性综述。
  • 按 2D 与 3D、单视角与多视角,以及输入源进行方法分类。
  • 总结用于 2D/3D HPE 的数据集和评估指标。
  • 比较最先进的方法,并讨论它们的优点和局限性。
  • 突出应用领域并勾勒未来的研究方向。

提出的方法

  • 将 HPE 方法分为 2D,然后进一步在 2D 上区分单人 vs 多人,以及在 3D 上区分单目输入 vs 基于传感器的输入。
  • 对比用于 2D 单人姿态估计的回归法与热力图法。
  • 描述 2D 多人姿态估计的自上而下和自下而上流程。
  • 总结来自单目 RGB 的 3D HPE(单视图和多视图,骨架仅 vs 网格重建)以及来自其他传感器的情况。
  • 提供数据集和评估指标的摘要,并进行定性/定量方法比较。
  • 讨论 HPE 的应用和未来方向。

实验结果

研究问题

  • RQ12D 与 3D 人体姿态估计的主要深度学习方法是什么,它们是如何组织的?
  • RQ2在单人 vs 多人,以及自上而下 vs 自下而上的框架中,2D HPE 方法如何比较?
  • RQ3用于 2D 和 3D HPE 的数据源、数据集和评估指标有哪些,方法在它们上的表现如何?
  • RQ4哪些挑战(如遮挡、数据稀缺、深度歧义)限制了当前的 HPE 方法,哪些方向可能解决它们?
  • RQ5基于深度学习的 HPE 的显著应用有哪些,以及识别出的未来研究方向是什么?

主要发现

  • 深度学习在 2D HPE 上显著优于经典方法,热力图和回归等方法塑造了这一领域。
  • HRNet 及其变体,加上基于 Transformer 的模型,已广泛应用于高精度关键点估计。
  • 遮挡、截断和计算效率仍然是多人人 2D HPE 的核心挑战。
  • 来自单目 RGB 的 3D HPE 是一个病态且数据需求高的问题,在跨数据集的泛化是一个显著问题;多视图和传感器融合可以缓解深度歧义。
  • 存在大量用于评估 2D/3D HPE 的数据集和指标,使方法之间的比较分析更加广泛。
  • 本综述涵盖了在 AR/VR、监控、医疗保健等领域的应用,并提供未来研究方向。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。