QUICK REVIEW

[论文解读] BigHand2.2M Benchmark: Hand Pose Dataset and State of the Art Analysis

Shanxin Yuan, Qi Ye|arXiv (Cornell University)|Apr 9, 2017

Human Pose and Action Recognition参考文献 28被引用 30

一句话总结

本论文提出了 BigHand2.2M，一个包含 220 万张深度图像的大规模基准数据集，配有 21 个关节的手部姿态标注，采用创新的 6D 磁性传感器追踪系统与逆运动学实现全自动、高精度标注。该数据集使跨基准手部姿态估计达到最先进水平，平均误差为 15–20mm，并显著提升了使用该数据集训练的卷积神经网络在第一视角手部姿态估计中的表现。

ABSTRACT

In this paper we introduce a large-scale hand pose dataset, collected using a novel capture method. Existing datasets are either generated synthetically or captured using depth sensors: synthetic datasets exhibit a certain level of appearance difference from real depth images, and real datasets are limited in quantity and coverage, mainly due to the difficulty to annotate them. We propose a tracking system with six 6D magnetic sensors and inverse kinematics to automatically obtain 21-joints hand pose annotations of depth maps captured with minimal restriction on the range of motion. The capture protocol aims to fully cover the natural hand pose space. As shown in embedding plots, the new dataset exhibits a significantly wider and denser range of hand poses compared to existing benchmarks. Current state-of-the-art methods are evaluated on the dataset, and we demonstrate significant improvements in cross-benchmark performance. We also show significant improvements in egocentric hand pose estimation with a CNN trained on the new dataset.

研究动机与目标

为解决缺乏大规模、精确标注的真实世界手部姿态数据集，这些数据集需覆盖自然手部运动与多样化视角。
克服人工与半自动标注方法的局限性，这些方法耗时且易出错。
利用非限制性传感器设置与逆运动学，实现 21 个关节手部姿态的高精度自动标注。
创建一个全面的基准，用于评估和推动最先进手部姿态估计模型的发展，特别是在第一视角设置下。
证明在 BigHand2.2M 上进行训练可实现对现有基准的优越泛化能力与性能表现。

提出的方法

在手上安装六个 6D 磁性传感器（五个在指尖，一个在手掌），以高精度实时捕捉三维关节位置。
基于具有运动学约束的 31 自由度手部模型，利用逆运动学从传感器数据计算 21 个关节的手部姿态标注。
设计了结构化手部运动协议，以在无外部力作用下最大化覆盖自然手部姿态空间。
使用英特尔 RealSense SR300 捕获分辨率为 640×480 的深度图像，确保为深度学习模型提供高质量输入。
收集了 220 万帧图像，实现全视角覆盖，其中包含 29 万帧第一视角图像，显著扩展了现有第一视角基准。
在 BigHand2.2M 数据集上训练 3D 卷积神经网络，并采用跨基准与 10 折交叉验证协议，在 NYU、ICVL 及第一视角数据等多个基准上进行评估。

实验结果

研究问题

RQ1能否利用自动、非侵入式传感技术创建一个大规模、真实世界手部姿态数据集，具备高标注精度与广泛姿态覆盖？
RQ2在 BigHand2.2M 上进行训练，对 NYU 和 ICVL 等现有基准的泛化能力与性能提升程度如何？
RQ3在 BigHand2.2M 上训练的卷积神经网络能否在第一视角手部姿态估计中实现最先进性能，从而克服以往因训练数据规模小而受限的问题？
RQ4与先前基准相比，BigHand2.2M 的标注质量与协议在姿态多样性与关节精度方面表现如何？
RQ5标注差异与不同的手部测量方案对跨基准评估结果的影响是什么？

主要发现

BigHand2.2M 数据集包含 220 万张深度图像与 21 个关节的手部姿态标注，其自然手部姿态的覆盖范围显著更广、更密集，优于以往基准。
在跨基准评估中，基于 BigHand2.2M 训练的卷积神经网络平均误差为 15–20mm，优于以往最先进方法（包括 DeepPrior 与 FeedLoop）。
尽管在训练过程中从未接触 NYU 数据，该模型在 NYU 与 ICVL 基准上仍达到与现有最佳方法相当的性能。
29 万帧的第一视角子集（比以往第一视角基准大 130 倍）使卷积神经网络在第一视角手部姿态估计中达到最先进性能，与第三视角表现相当。
在验证集上，90% 的关节估计误差在 5mm 以内，证明了标注质量高且模型具有可靠性。
定性结果表明，该模型对未见过的姿态具有良好的泛化能力，即使在测试集中存在标注差异，预测结果仍具合理性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。