QUICK REVIEW
[论文解读] MediaPipe Hands: On-device Real-time Hand Tracking
Fan Zhang, Valentin Bazarevsky|arXiv (Cornell University)|Jun 18, 2020
Hand Gesture Recognition Systems参考文献 10被引用 543
一句话总结
呈现一个实时的设备端两阶段手部跟踪管线( palm detector + hand landmark model )从 RGB 输入预测 21 个 2.5D 手部关键点,并在移动 GPU 上高效运行。通过 MediaPipe 开源实现以实现跨平台部署。
ABSTRACT
We present a real-time on-device hand tracking pipeline that predicts hand skeleton from single RGB camera for AR/VR applications. The pipeline consists of two models: 1) a palm detector, 2) a hand landmark model. It's implemented via MediaPipe, a framework for building cross-platform ML solutions. The proposed model and pipeline architecture demonstrates real-time inference speed on mobile GPUs and high prediction quality. MediaPipe Hands is open sourced at https://mediapipe.dev.
研究动机与目标
- 通过在普通设备上实现实时手部跟踪以实现自然交互,来推动 AR/VR 应用。
- 开发一个两阶段管线,用于检测掌部并从 RGB 输入预测 21 个 2.5D 手部关键点。
- 实现移动端 GPU 的实时推理,提供高预测质量,并具备跨平台可用性。
提出的方法
- 两阶段管线:一个类似 BlazePalm 的掌部探测器为每只手提供一个边界框;随后是一个手部关键点模型,在裁剪后的掌部区域回归 21 个 2.5D 关键点。
- 掌部探测器为移动端实时检测而设计,使用正方形边界框、编码器-解码器特征,以及聚焦损失以应对大尺度方差。
- 手部关键点模型输出:21 个关键点(x, y, 相对深度)、一个手部存在标志,以及一个手向性分类(左/右)。
- 跟踪使用前一帧的关键点来裁剪当前帧,只有在手部丢失或对齐置信度低时才触发探测器。
- 一个辅助的“手部存在”分数有助于在跟踪失败时通过按需重新初始化探测器来恢复。
- 在 MediaPipe 中实现为一组具有 GPU 加速和 TensorFlow Lite 后端的模块化 Calculators 图。
实验结果
研究问题
- RQ1一个两阶段的设备端管线是否能够在移动设备上实时从 RGB 输入准确估计 21 个 2.5D 手部关键点?
- RQ2利用前一帧的关键点进行裁剪如何影响探测器的频率和整体吞吐量?
- RQ3训练数据组成(真实数据、合成数据、或两者结合)对关键点准确性和时间稳定性有何影响?
- RQ4系统在不同设备(Android、iOS、桌面)和硬件后端上的性能如何?
主要发现
| 模型 | 参数 (M) | MSE | 时间(ms) Pixel 3 | 时间(ms) Samsung S20 | 时间(ms) iPhone11 |
|---|---|---|---|---|---|
| Light | 1 | 11.83 | 6.6 | 5.6 | 1.1 |
| Full | 1.98 | 10.05 | 16.1 | 11.1 | 5.3 |
| Heavy | 4.02 | 9.817 | 36.9 | 25.8 | 7.5 |
- 手部关键点模型在用真实世界数据和合成数据相结合进行训练时获得更高的准确性(组合的 MSE 13.4% 对比 仅真实世界数据的 16.1%)。
- 在 Pixel 3、Samsung S20 和 iPhone 11 上演示了实时设备端推理,提供轻量级“Light”、完整型“Full”、和重型“Heavy”模型变体。
- “Full”模型在 Pixel 3 的 MSE 为 10.05,时延 16.1 ms,在 iPhone11 为 11.1 ms,在 Samsung S20 为 5.3 ms,达到质量与速度的平衡。
- 掌部探测器的设计选择(正方形边界框、编码器-解码器特征提取、聚焦损失)以及消融研究在遮挡和尺度方差下提高检测鲁棒性。
- 设备端推理使用 TensorFlow Lite GPU 后端,实现跨平台的实时性能。
- 该管线输出 21 个关键点、一个手部存在概率,以及 handedness,为下游 AR/手势应用提供支持。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。