[论文解读] Learning to Dress 3D People in Generative Clothing
本文提出 CAPE,一种条件性 Mesh-VAE-GAN 模型,通过在 SMPL 上学习一个概率性、可加的位移层,实现对 3D 人体网格上逼真且与姿态相关的服装形变的生成。该方法可在不同体型和姿态下实现多样化、可微分且高保真的服装采样,显著提升了基线 SMPL 模型在图像拟合和合成数据质量方面的表现。
Three-dimensional human body models are widely used in the analysis of human pose and motion. Existing models, however, are learned from minimally-clothed 3D scans and thus do not generalize to the complexity of dressed people in common images and videos. Additionally, current models lack the expressive power needed to represent the complex non-linear geometry of pose-dependent clothing shapes. To address this, we learn a generative 3D mesh model of clothed people from 3D scans with varying pose and clothing. Specifically, we train a conditional Mesh-VAE-GAN to learn the clothing deformation from the SMPL body model, making clothing an additional term in SMPL. Our model is conditioned on both pose and clothing type, giving the ability to draw samples of clothing to dress different body shapes in a variety of styles and poses. To preserve wrinkle detail, our Mesh-VAE-GAN extends patchwise discriminators to 3D meshes. Our model, named CAPE, represents global shape and fine local structure, effectively extending the SMPL body model to clothing. To our knowledge, this is the first generative model that directly dresses 3D human body meshes and generalizes to different poses. The model, code and data are available for research purposes at https://cape.is.tue.mpg.de.
研究动机与目标
- 为解决当前 3D 人体模型中缺乏真实感、生成式服装建模的问题,这些模型在图像和视频中无法泛化至穿有服装的人体。
- 克服确定性服装形变模型的局限,后者无法捕捉真实服装所具有的随机性与丰富的褶皱特征。
- 开发一种可微分、参数化且可控的模型,扩展 SMPL 以支持多样化的服装类型和与姿态相关的形状。
- 通过将服装作为可学习的条件化组件集成,实现合成数据生成、基于图像的人体拟合以及动画等应用。
提出的方法
- 基于图的网格表示继承 SMPL 的拓扑结构,每个顶点存储一个 3D 偏移向量,表示服装相对于底层身体的位移。
- 训练一种条件性 Mesh-VAE-GAN 框架,将服装建模为以身体姿态和服装类型为条件的潜在变量,从而实现多样化服装形状的随机采样。
- 引入逐块 3D 网格判别器,以保留如褶皱等精细几何细节,提升视觉真实感,超越标准 GAN 的表现。
- 模型使用图卷积网络(GCNs)和网格采样层作为骨干组件,处理并生成基于网格的服装形变。
- 框架在包含 11 名受试者、共 80K 帧的新型 4D 扫描数据集上进行训练,捕捉了姿态相关的服装几何特征。
- 最终的 CAPE 模型完全可微分且与 SMPL 兼容,支持对穿装人体的重新姿态调整、重采样以及动画生成。
实验结果
研究问题
- RQ1生成式模型能否在 3D 人体上学习生成多样化、逼真且与姿态相关的服装形变,包括褶皱和复杂折叠?
- RQ23D 网格生成模型如何在保持整体形状一致性的同时,保留如褶皱等精细几何细节?
- RQ3以姿态和服装类型为条件的条件性潜在变量模型,在多大程度上能泛化到未见过的体型和姿态?
- RQ4将此类服装模型集成后,是否能提升基于图像的 3D 人体重建精度,相比标准 SMPL 模型?
主要发现
- 在直接评估中,CAPE 在真实/虚假图像对比测试中的人脸识别准确率达到 35.1% ± 15.7%,表明其具有出色的视觉合理性。
- 在图像拟合任务中,CAPE 相较 SMPLify 将平均顶点误差降低了 18%,实现每顶点均方误差 0.0189 米,优于 SMPLify 的 0.0223 米。
- 该模型成功泛化至未见过的体型和姿态,通过潜在空间采样生成多样化服装变体,定性结果展示了每类服装的多个示例。
- 逐块 3D 网格判别器有效增强了局部几何细节,尤其在褶皱和折叠区域表现突出,优于标准 GAN 在保留精细结构方面的能力。
- CAPE 实现了完全可微分,支持基于优化的图像拟合,实现穿装人体的重新姿态调整与重新穿衣,可通过潜在空间或类别采样完成。
- 该模型与现有基于 SMPL 的流程兼容,支持即插即用,适用于合成数据生成与基于合成的分析等应用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。