[论文解读] DeepHuman: 3D Human Reconstruction from a Single Image
DeepHuman 提出了一种基于卷积神经网络的新框架,用于从单张 RGB 图像进行 3D 人体重建,通过利用来自 SMPL 模型的密集语义表示以及多尺度体素特征变换,提升了几何精度。该方法通过一个端到端可训练的体素法线精炼网络实现了最先进性能,并引入了包含约 7,000 幅真实世界人体网格的 THuman 数据集,涵盖多种服装和姿态。
We propose DeepHuman, an image-guided volume-to-volume translation CNN for 3D human reconstruction from a single RGB image. To reduce the ambiguities associated with the surface geometry reconstruction, even for the reconstruction of invisible areas, we propose and leverage a dense semantic representation generated from SMPL model as an additional input. One key feature of our network is that it fuses different scales of image features into the 3D space through volumetric feature transformation, which helps to recover accurate surface geometry. The visible surface details are further refined through a normal refinement network, which can be concatenated with the volume generation network using our proposed volumetric normal projection layer. We also contribute THuman, a 3D real-world human model dataset containing about 7000 models. The network is trained using training data generated from the dataset. Overall, due to the specific design of our network and the diversity in our dataset, our method enables 3D human model estimation given only a single image and outperforms state-of-the-art approaches.
研究动机与目标
- 解决从单张 RGB 图像重建详细 3D 人体的挑战,尤其针对不可见区域和穿着衣物的区域。
- 通过整合源自参数化 SMPL 模型的密集语义先验,减少 3D 重建中的几何模糊性。
- 通过将多尺度图像特征融合到 3D 体素空间以实现精确的几何估计,提升表面细节恢复能力。
- 通过引入新型体素法线投影层,实现表面细节精炼网络的端到端训练,以增强可见表面细节。
- 提供大规模、多样化、真实世界中的 3D 人体数据集(THuman),以支持单图像 3D 重建模型的训练与评估。
提出的方法
- 使用 HMR 或类似方法从单张图像估计 SMPL 人体形状与姿态参数,生成密集的 3D 语义体素和 2D 语义图作为辅助监督信号。
- 采用图像引导的体素到体素转换卷积神经网络,通过体素特征变换(VFT)将多尺度图像特征融合到 3D 空间,以改善几何恢复效果。
- 引入体素法线投影层,将体素生成网络与专用的法线精炼 U-Net 相连接,实现表面细节精炼的端到端训练。
- 利用多尺度 VFT 将高分辨率图像细节(如褶皱、头发)整合到 3D 体素中,减少过度平滑化现象,提升边界准确性。
- 在基于 THuman 数据集生成的合成数据上训练网络,该数据集包含约 7,000 个具有多样化服装和姿态的真实人体网格。
- 利用基于 DoubleFusion 的 THuman 捕获流程,实现实时高保真、中等细节的穿着衣物人体外表面几何重建。
实验结果
研究问题
- RQ1深度学习模型能否从单张 RGB 图像中重建出合理的 3D 人体几何结构,包括不可见区域和复杂的衣物细节?
- RQ2从 SMPL 模型中整合密集语义表示在约束 3D 重建空间和提升几何精度方面的有效性如何?
- RQ3多尺度体素特征融合在恢复细粒度表面细节(如头发和织物轮廓)方面的增强程度如何?
- RQ4通过体素投影层连接的专用法线精炼网络,能否显著提升表面法线质量与可见细节保真度?
- RQ5大规模真实世界 3D 人体数据集(THuman)的多样性与真实性,如何影响单图像 3D 重建模型的泛化能力与性能表现?
主要发现
- 所提出的方法在从单张图像进行 3D 人体重建方面优于当前最先进方法,实现了更高的重建精度和更好的泛化能力。
- 使用密集语义体素和语义图作为输入可减少重建模糊性,并提升 IoU 分数,在体素重建质量上实现了 15% 的相对提升。
- 多尺度体素特征变换显著增强了边界恢复能力:该方法成功重建了发髻等复杂特征,而基线方法仅使用粗或细尺度特征时则会遗漏这些细节。
- 法线精炼网络在合成数据集上的定量评估显示,其在余弦距离上将表面法线误差降低了 22.5%,在 ℓ2-范数上降低了 22%。
- 包含约 7,000 个具有多样化服装和姿态的真实世界人体网格的 THuman 数据集,使网络能够很好地泛化到自然图像,并实现稳健性能。
- 该框架在单目视频重建中表现出强大的鲁棒性和适用性,其应用价值已超越静态图像。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。