QUICK REVIEW

[论文解读] Real-time Joint Tracking of a Hand Manipulating an Object from RGB-D Input

Srinath Sridhar, Franziska Mueller|arXiv (Cornell University)|Oct 16, 2016

Hand Gesture Recognition Systems参考文献 34被引用 29

一句话总结

本文提出一种基于单个RGB-D相机的实时方法，用于联合追踪手部与物体的三维姿态，该方法利用3D可动高斯混合模型对齐，并引入新颖的遮挡与接触正则化项，结合多层随机森林分类以提升鲁棒性。该方法在基准数据集及新引入的手-物交互数据集上实现了25–30 Hz的性能与最先进水平的精度。

ABSTRACT

Real-time simultaneous tracking of hands manipulating and interacting with external objects has many potential applications in augmented reality, tangible computing, and wearable computing. However, due to difficult occlusions, fast motions, and uniform hand appearance, jointly tracking hand and object pose is more challenging than tracking either of the two separately. Many previous approaches resort to complex multi-camera setups to remedy the occlusion problem and often employ expensive segmentation and optimization steps which makes real-time tracking impossible. In this paper, we propose a real-time solution that uses a single commodity RGB-D camera. The core of our approach is a 3D articulated Gaussian mixture alignment strategy tailored to hand-object tracking that allows fast pose optimization. The alignment energy uses novel regularizers to address occlusions and hand-object contacts. For added robustness, we guide the optimization with discriminative part classification of the hand and segmentation of the object. We conducted extensive experiments on several existing datasets and introduce a new annotated hand-object dataset. Quantitative and qualitative results show the key advantages of our method: speed, accuracy, and robustness.

研究动机与目标

解决在复杂交互过程中实时、准确且鲁棒地联合追踪手部与物体姿态的挑战。
克服以往依赖多相机系统或昂贵优化流程的方法的局限性。
实现在消费级硬件（单个RGB-D传感器）上的实时性能，同时处理遮挡与手-物接触问题。
构建一个全新的、完整标注的手-物交互数据集，作为基准测试数据集。
整合判别性部件分类与生成式优化，以提升追踪的稳定性与对遮挡的恢复能力。

提出的方法

以3D可动高斯混合模型对齐作为核心姿态优化框架，泛化ICP算法，避免显式对应点搜索。
引入新颖的解析正则化项，用于遮挡与手-物接触点建模，其来源于抓握物理原理，以提升鲁棒性。
采用多层随机森林分类器结合视角选择，以引导优化过程，并在RGB-D输入中分割出手部部件与物体。
应用变分优化策略，同时评估多个姿态候选解并选择最优解。
在姿态优化前，通过深度聚类与预处理阶段高效提取物体与手部区域。
在GPU上运行分类，在CPU上处理其他阶段，以实现25–30 Hz的实时性能。

实验结果

研究问题

RQ1能否仅使用单个消费级RGB-D相机实现手-物联合追踪的实时处理？
RQ2如何通过解析方式建模遮挡与手-物接触，以提升追踪鲁棒性？
RQ3判别性部件分类能否增强生成式姿态优化框架的稳定性与恢复能力？
RQ4所提方法在标准与新基准上的定量表现与以往最先进方法相比如何？
RQ5各独立组件（如遮挡处理、接触项）对追踪精度与鲁棒性的具体影响如何？

主要发现

所提方法在标准CPU与GPU配置下实现了25–30 Hz的实时性能，支持交互式应用。
在Dexter数据集上，该方法将平均指尖误差降低至17.2 mm，优于以往工作（19.6 mm），归因于对3D空间连续邻近性的建模。
消融实验表明，若禁用遮挡处理、接触项或视角选择，误差显著上升，证明其在鲁棒性中的关键作用。
该方法能实时成功追踪复杂交互，包括抓取、旋转操作，以及处理形状、尺寸与颜色各异的物体。
通过判别性分类，该方法可从长期遮挡中恢复，如定性结果所示，成功实现视觉丢失后的恢复。
作者引入了一个全新的、完全标注的手-物交互数据集，并已公开发布，以支持未来基准测试与研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。