QUICK REVIEW

[论文解读] BiHand: Recovering Hand Mesh with Multi-stage Bisected Hourglass Networks

Lixin Yang, Jiasen Li|arXiv (Cornell University)|Aug 12, 2020

Human Pose and Action Recognition参考文献 15被引用 26

一句话总结

BiHand 提出了一种端到端的多阶段分叉漏斗网络，用于从单张 RGB 图像中恢复 3D 手部网格，通过级联的 2D 种子生成、3D 提升和网格生成阶段，结合一种新颖的分叉设计，联合优化相关几何线索（例如 2D 关键点与轮廓、3D 关节与深度）。其在 RHD 上达到 AUC 0.951，在 STB 上达到 0.997，展现出在复杂条件下的强大鲁棒性。

ABSTRACT

3D hand estimation has been a long-standing research topic in computer vision. A recent trend aims not only to estimate the 3D hand joint locations but also to recover the mesh model. However, achieving those goals from a single RGB image remains challenging. In this paper, we introduce an end-to-end learnable model, BiHand, which consists of three cascaded stages, namely 2D seeding stage, 3D lifting stage, and mesh generation stage. At the output of BiHand, the full hand mesh will be recovered using the joint rotations and shape parameters predicted from the network. Inside each stage, BiHand adopts a novel bisecting design which allows the networks to encapsulate two closely related information (e.g. 2D keypoints and silhouette in 2D seeding stage, 3D joints, and depth map in 3D lifting stage, joint rotations and shape parameters in the mesh generation stage) in a single forward pass. As the information represents different geometry or structure details, bisecting the data flow can facilitate optimization and increase robustness. For quantitative evaluation, we conduct experiments on two public benchmarks, namely the Rendered Hand Dataset (RHD) and the Stereo Hand Pose Tracking Benchmark (STB). Extensive experiments show that our model can achieve superior accuracy in comparison with state-of-the-art methods, and can produce appealing 3D hand meshes in several severe conditions.

研究动机与目标

解决从单张 RGB 图像进行 3D 手部网格重建的挑战，该问题因透视模糊性和复杂的手部几何结构而具有病态性。
通过整合多种几何线索（例如 2D 关键点、轮廓、深度、关节旋转）作为中间监督信号，提升 3D 手部估计的准确性和鲁棒性。
提出一种新颖的分叉架构，实现在每个阶段内对密切关联但又不同的几何表示进行联合优化。
通过合成一百万个位置-旋转配对，克服真实 MANO 参数监督稀疏的问题，训练一种形状感知的逆运动学网络。
在自遮挡、截断和光照不良等条件下，实现 3D 手部网格恢复的 SOTA 性能。

提出的方法

提出三阶段框架：2D 种子生成（SeedNet）、3D 提升（LiftNet）和网格生成（SIKNet），每个阶段均采用分叉漏斗设计，以并行处理两种相关几何输入。
引入一种分叉设计，使每个阶段的特征流分为两条分支——例如第一阶段为 2D 关键点与轮廓，第二阶段为 3D 关节与深度图，第三阶段为关节旋转与形状参数——从而实现互补几何细节的联合优化。
采用一种形状感知的逆运动学网络（SIKNet），将预测的 3D 关节位置映射为 MANO 手部模型参数，提升对噪声和估计误差的鲁棒性。
通过合成大规模的 SIK-1M 数据集，包含一百万个合成的 3D 关节位置到旋转参数的配对，以实现对 SIKNet 训练的完整监督。
采用多任务损失函数，并辅以 2D 关键点、轮廓、3D 关节、深度图和 MANO 参数的监督，以稳定训练并提升泛化能力。
采用渐进式训练策略，包括阶段式预训练和端到端微调，初始低学习率设为 1e-5，共训练 50 个周期。

实验结果

研究问题

RQ1多阶段分叉网络架构是否能通过联合建模互补几何线索，提升从单张 RGB 图像中恢复 3D 手部网格的性能？
RQ2所提出的分叉设计在提升 3D 手部估计各阶段优化稳定性和鲁棒性方面效果如何？
RQ3形状感知的逆运动学网络在从 3D 关节位置预测 MANO 参数方面，能将准确性提升到何种程度？
RQ4在真实动作捕捉数据稀缺的情况下，使用大规模合成监督进行关节旋转估计，是否能显著提升性能？
RQ5所提出的框架是否能泛化到自遮挡、截断和低光照等复杂真实场景？

主要发现

BiHand 在 Rendered Hand Dataset (RHD) 上达到 SOTA 性能，AUC 为 0.951，优于基于直接回归或运动链建模的先前方法。
在 Stereo Hand Pose Tracking Benchmark (STB) 上，BiHand 达到 AUC 0.997，展现出在复杂多视角设置下的卓越鲁棒性与准确性。
消融研究证实，同时包含深度图与轮廓预测分支显著提升了 3D 提升性能，其中加入 SIKNet 进行旋转估计带来的增益最大。
即使在严重自遮挡、截断和光照不良等条件下，该方法仍能生成高质量且合理的 3D 手部网格，如定性结果所示。
SIK-1M 合成数据集为 SIKNet 训练提供了有效完整监督，这一点至关重要，因为真实动作捕捉数据中配对的关节点位置与旋转参数极为稀少。
分叉漏斗设计带来了更稳定和准确的优化，表现为在消融实验中，每增加一个辅助分支，性能均持续提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。