Skip to main content
QUICK REVIEW

[论文解读] BlazePose GHUM Holistic: Real-time 3D Human Landmarks and Pose Estimation

Ivan Grishchenko, Valentin Bazarevsky|arXiv (Cornell University)|Jun 23, 2022
Human Pose and Action Recognition被引用 22
一句话总结

一个轻量级的设备端管线,从单张RGB图像实时估计3D人体与手部关键点并推导GHUM姿态/形状,具备在设备端实时性能,用于全身动作捕捉和虚拟形象控制。

ABSTRACT

We present BlazePose GHUM Holistic, a lightweight neural network pipeline for 3D human body landmarks and pose estimation, specifically tailored to real-time on-device inference. BlazePose GHUM Holistic enables motion capture from a single RGB image including avatar control, fitness tracking and AR/VR effects. Our main contributions include i) a novel method for 3D ground truth data acquisition, ii) updated 3D body tracking with additional hand landmarks and iii) full body pose estimation from a monocular image.

研究动机与目标

  • 通过在单幅单目RGB数据上实现设备端、实时全身跟踪来普及3D人体姿态估计。
  • 将3D身体与手部关键点与基于GHUM的紧凑提升器整合,以实现富表达的姿态与形状估计。
  • 提出稳健的3D地面真实数据采集,利用GHUM拟合对多样化的2D标注进行深度排序监督。
  • 将 BlazePose 扩展以包含手/手指,形成统一的全身动作捕捉系统。
  • 展示一个开源的头像演示,并在多设备上评估速度与精度的权衡。

提出的方法

  • 从单张RGB图像中通过一次前向传播在一个步骤中预测2D/3D身体与手部关键点。
  • 使用 BlazePose 先验对手部区域进行裁剪,并应用高分辨率手部模型以获得每只手的21个3D手部关键点。
  • 将GHUM作为生成式3D身体模型并对2D标注加深度排序监督进行拟合,以获得3D地面真实值。
  • 引入基于MLPMixer的GHUM提升器,将连接的身体/手部3D关键点映射到GHUM网格参数(r,t,β,θ)。
  • 通过对GHUM网格进行采样并学习固定线性回归以检索顶点级关键点,同时引入噪声注入以增强鲁棒性。

实验结果

研究问题

  • RQ1单目RGB图像在设备端是否能够提供适用于全身姿态估计的准确3D身体与手部关键点?
  • RQ2将基于GHUM的提升器整合是否能在不牺牲实时性能的前提下,提高3D姿态/形状预测的表达力与真实感?
  • RQ3在野外数据上,如何在不依赖大量深度传感或实验室设置的情况下有效获得3D地面真实值?
  • RQ4在设备端推断中提供多种模型变体(Lite/Full/Heavy)时,精度与速度的权衡有哪些?
  • RQ5统一管线是否能够预测可靠的3D关键点并驱动3D虚拟形象用于AR/VR和健身应用?

主要发现

模型2D3DmAPmae (mm)
BlazePose Heavy68.136
BlazePose Full62.639
BlazePose Lite45.045
AlphaPose ResNet5063.4N/A
Apple Vision32.8N/A
  • BlazePose GHUM Holistic 在大多数现代移动设备和浏览器上以实时速度运行,达到15 FPS。
  • 模型展现出与2D/3D关键点相关的竞争性精度,并通过 GHUM 先验实现合理姿态。
  • 使用重新裁剪的高分辨率手部区域的管线在手部关键点精度上优于基线。
  • 搭配 MLPMixer 的 GHUM 提升器在 Held-out 野外姿态测试集上达到 MPJPE-PA 78 mm、MPJPE 121 mm,优于若干SOTA方法。
  • 推断速度因设备与模型变体而异,在浏览器内与移动CPU/GPU配置下速度更快。
  • 一个开源的 MediaPipe 头像演示显示在生成的3D关键点下实现15 FPS 的头像控制。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。