[论文解读] HybrIK-X: Hybrid Analytical-Neural Inverse Kinematics for Whole-body Mesh Recovery
HybrIK-X 引入一种混合分析-神经的逆向运动学框架,通过将准确的 3D 关节转换为身体部位旋转,扩展到手部和脸部,采用单阶段模型实现像素对齐的全身网格。
Recovering whole-body mesh by inferring the abstract pose and shape parameters from visual content can obtain 3D bodies with realistic structures. However, the inferring process is highly non-linear and suffers from image-mesh misalignment, resulting in inaccurate reconstruction. In contrast, 3D keypoint estimation methods utilize the volumetric representation to achieve pixel-level accuracy but may predict unrealistic body structures. To address these issues, this paper presents a novel hybrid inverse kinematics solution, HybrIK, that integrates the merits of 3D keypoint estimation and body mesh recovery in a unified framework. HybrIK directly transforms accurate 3D joints to body-part rotations via twist-and-swing decomposition. The swing rotations are analytically solved with 3D joints, while the twist rotations are derived from visual cues through neural networks. To capture comprehensive whole-body details, we further develop a holistic framework, HybrIK-X, which enhances HybrIK with articulated hands and an expressive face. HybrIK-X is fast and accurate by solving the whole-body pose with a one-stage model. Experiments demonstrate that HybrIK and HybrIK-X preserve both the accuracy of 3D joints and the realistic structure of the parametric human model, leading to pixel-aligned whole-body mesh recovery. The proposed method significantly surpasses the state-of-the-art methods on various benchmarks for body-only, hand-only, and whole-body scenarios. Code and results can be found at https://jeffli.site/HybrIK-X/
研究动机与目标
- 通过在准确的 3D 关节与真实的身体网格之间建立桥梁,将 3D 关键点估计与参数化身体模型结合起来,解决差距。
- 开发一个混合 IK 求解器,使用解析摆动旋转和神经扭转角来恢复身体部位旋转。
- 将该方法扩展到包括手部和脸部在内的全身网格恢复,形成一个单阶段框架。
- 提高对遮挡/截断的鲁棒性,并相对于多专家流水线降低计算复杂度。
提出的方法
- 使用 twist-and-swing 分解将身体部位旋转分解为 swing(解析求解)和 twist(神经)分量。
- 以可微且前馈的方式求解沿着运动树的旋转。
- 通过将身体分成子树(躯干、手部、脸部)并应用向后更新的合并,在冲突关节处确保一致性,扩展到 HybrIK-X。
- 利用 SMPL/SMPL-X 模型的休息姿势、形状 beta 和表情 psi,通过线性混合皮肤权重产生可微分网格。
- 通过回归 2.5D 关节、扭转角、形状和表情参数进行端到端训练,然后通过 IK 和 FK 恢复完整网格。
实验结果
研究问题
- RQ1混合分析-神经 IK 流水线是否能够从单目图像实现像素对齐的全身网格恢复?
- RQ2相较于直接回归完整的 3D 旋转,twist-and-swing IK 是否能够实现更稳定、逼真的身体部位旋转?
- RQ3在处理遮挡和截断的同时,单阶段模型是否能够在不依赖单独专业网络的情况下可靠地恢复躯干、手和脸?
- RQ4跨子树的向后更新合并如何影响全身重建时冲突关节的一致性?
主要发现
- HybrIK-X 通过使用 twist-and-swing IK 来求解身体部位旋转,从而实现像素对齐的全身网格恢复。
- 摆动分量从 3D 关节解析求解,扭转分量由神经网络预测,从而实现可微分的端到端训练。
- HybrIK-X 在一个阶段的框架中将 HybrIK 扩展到手和脸部,相比多专家流水线提高了效率。
- 跨子树的向后更新合并减少了共享关节处的冲突,使全身重建更加一致。
- 该方法在仅身体、仅手部以及全身基准测试上显著超越了最先进的方法(如所述)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。