Skip to main content
QUICK REVIEW

[论文解读] Robust 3D Hand Pose Estimation in Single Depth Images: from Single-View CNN to Multi-View CNNs

Liuhao Ge, Hui Liang|arXiv (Cornell University)|Jun 23, 2016
Human Pose and Action Recognition参考文献 30被引用 60
一句话总结

该论文提出了一种多视角CNN方法,通过将3D手部点云投影到三个正交平面上,利用独立的CNN为每个视角回归2D热图,并结合学习到的手部姿态先验来融合结果,从而实现从单张深度图像中鲁棒地估计3D手部姿态。该方法在准确性和泛化能力方面优于单视角方法,尤其在姿态变化复杂和跨数据集设置下表现更优,实现了SOTA性能与实时推理(>70fps)。

ABSTRACT

Articulated hand pose estimation plays an important role in human-computer interaction. Despite the recent progress, the accuracy of existing methods is still not satisfactory, partially due to the difficulty of embedded high-dimensional and non-linear regression problem. Different from the existing discriminative methods that regress for the hand pose with a single depth image, we propose to first project the query depth image onto three orthogonal planes and utilize these multi-view projections to regress for 2D heat-maps which estimate the joint positions on each plane. These multi-view heat-maps are then fused to produce final 3D hand pose estimation with learned pose priors. Experiments show that the proposed method largely outperforms state-of-the-art on a challenging dataset. Moreover, a cross-dataset experiment also demonstrates the good generalization ability of the proposed method.

研究动机与目标

  • 为解决从单张深度图像中准确估计3D手部姿态的挑战,该任务因高维非线性回归和深度模糊性而难以实现。
  • 克服单视角CNN方法的局限性,后者依赖于2D关节点位置处的深度值,即使2D定位误差较小,也可能导致较大的深度误差。
  • 通过利用多个正交视角之间的互补信息,减少热图预测中的歧义性。
  • 通过训练隐式学习手部姿态先验,避免依赖显式手部模型或真实初始姿态。
  • 通过学习鲁棒且视角不变的表征,提升在不同数据集间的泛化能力,且无需时间序列信息或模型校准。

提出的方法

  • 将输入的深度图像转换为3D点云,随后将其投影到三个正交平面(前视、侧视、顶视),生成三张2D多视角图像。
  • 并行训练三个独立的CNN,为每个投影视角回归2D热图,其中每个热图编码了该平面上关节点位置的概率分布。
  • 通过学习到的手部姿态先验,融合来自三个视角的预测热图,以估计最终的3D关节点位置,从而减少歧义并提升鲁棒性。
  • 融合过程结合了手部解剖结构的空间约束,隐式建模手部运动与关节点关系,无需显式模型拟合。
  • 整个流程端到端优化,多视角投影与融合在CPU上执行,CNN推理在GPU上完成,实现实时性能。
  • 该方法避免显式3D模型拟合,且无需真实初始姿态或时间序列信息,提升了在真实场景部署中的灵活性。

实验结果

研究问题

  • RQ1与单视角回归相比,多视角CNN是否能通过更好地利用正交投影中的深度线索,提升3D手部姿态估计的准确性?
  • RQ2三组正交视角的热图融合在何种程度上能减少关节点定位的歧义性,特别是在单视角热图存在多个热点时?
  • RQ3该方法在无需微调或真实初始姿态的情况下,对未见数据集的泛化能力如何?
  • RQ4通过训练隐式学习姿态先验,是否相比依赖显式手部模型或迭代拟合的方法更具鲁棒性?
  • RQ5该方法是否能在保持高精度的同时实现实时推理,即使在具有挑战性的基准数据集上?

主要发现

  • 在所有误差容忍度下,该方法均优于[21]提出的SOTA方法,20mm和30mm误差阈值内的样本比例高出10–15%。
  • 在低于15mm的误差容忍度下,性能略低于[21],可能由于热图分辨率较低,但依然展现出更优的鲁棒性。
  • 在跨数据集测试集上,六名受试者的平均误差为22.8mm,优于需要校准模型和真实初始姿态的基于模型的方法(如FORTH、PSO和ICP)。
  • 该方法对视角变化表现出强鲁棒性,平均误差在不同俯仰角下的标准差为0.64mm,低于[21]方法的0.79mm。
  • 整个流程耗时14.1ms(70.9fps),其中CNN推理耗时6.8ms,证实了其实时性能,尽管投影与融合在CPU上执行。
  • 在定性结果中,多视角融合方法显著减少了误检,如将指尖错误预测为掌心或背景区域的情况,相比单视角回归有明显改善。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。