[论文解读] Detailed, accurate, human shape estimation from clothed 3D scan sequences
本文提出了一种新颖的方法,通过直接优化标准T型姿势模板的顶点,从穿衣服的3D扫描序列中估计详细且个性化的身体形状,利用时间一致性以及一种鲁棒的目标函数,强制实现衣物位于身体外部并紧密贴合可见皮肤。该方法在姿态和形状估计方面均优于当前最先进方法,在一个新的高质量4D数据集(BUFF)上实现了亚3毫米的平均配准误差,该数据集已公开用于研究。
We address the problem of estimating human pose and body shape from 3D scans over time. Reliable estimation of 3D body shape is necessary for many applications including virtual try-on, health monitoring, and avatar creation for virtual reality. Scanning bodies in minimal clothing, however, presents a practical barrier to these applications. We address this problem by estimating body shape under clothing from a sequence of 3D scans. Previous methods that have exploited body models produce smooth shapes lacking personalized details. We contribute a new approach to recover a personalized shape of the person. The estimated shape deviates from a parametric model to fit the 3D scans. We demonstrate the method using high quality 4D data as well as sequences of visual hulls extracted from multi-view images. We also make available BUFF, a new 4D dataset that enables quantitative evaluation (http://buff.is.tue.mpg.de). Our method outperforms the state of the art in both pose estimation and shape estimation, qualitatively and quantitatively.
研究动机与目标
- 解决从穿着衣服的人的3D扫描序列中估计详细、最少着装的人体身体形状的挑战。
- 克服基于统计身体模型的方法因产生过于平滑的形状而无法捕捉局部身份细节(如面部特征)的局限性。
- 在虚拟试穿、健康监测和角色创建等应用中实现出色的姿态与形状估计,这些应用中穿着最少衣物进行扫描不切实际。
- 通过利用序列中多姿态约束,提升对衣物遮挡的鲁棒性。
- 提供一个公开可用的高分辨率4D数据集(BUFF),用于人体形状估计方法的定量评估。
提出的方法
- 该方法直接优化标准T型姿势模板的6,890个顶点,而非仅调整统计身体模型的参数,以捕捉局部形状细节。
- 每帧最小化一个单帧目标函数,强制实现:(i) 衣物顶点位于估计的身体形状外部,(ii) 紧密贴合可见皮肤区域,(iii) 使用鲁棒函数将顶点牢固地吸附到附近衣物顶点。
- 该方法使用SMPL作为正则化项,以保持人体测量学上的合理性,确保优化后的顶点保持在统计形状先验附近。
- 通过首先将所有扫描注册到一个通用的无姿态空间(通过目标函数的一个特例处理,将所有点视为皮肤),利用时间信息形成“融合扫描”。
- 然后通过最小化完整目标函数,利用融合扫描计算出“融合形状”,作为鲁棒的全局形状先验。
- 最后,使用融合形状作为正则化项,通过在序列上优化相同的目标函数,来细化姿态和随时间变化的形状细节。
实验结果
研究问题
- RQ1能否在不依赖参数化模型优化的前提下,从穿着衣服的人的3D扫描序列中准确估计出详细且个性化的身体形状?
- RQ2基于顶点的优化方法是否能在捕捉面部特征和身体轮廓等细粒度身份细节方面优于现有的统计身体模型方法?
- RQ3当衣物遮挡了身体的显著部分时,该方法在恢复准确姿态和形状方面的有效性如何?
- RQ4与单帧方法相比,融合多个姿态在多大程度上提升了形状估计的准确性?
- RQ5该方法在存在不完美皮肤/衣物分割(如多视角图像的视觉轮廓)的真实世界数据上是否具有泛化能力?
主要发现
- 当使用完整的皮肤/衣物分割时,该方法在BUFF数据集上实现了约2.5毫米的平均配准误差,显著优于先前的最先进方法。
- 即使扫描被标记为“全衣物”(无皮肤分割),该方法仍实现了约3毫米的平均误差,表明其对分割错误具有鲁棒性。
- 定性结果表明,与先前方法相比,该方法在估计复杂身体部位(如手肘和肩膀)方面表现更优,尤其在舞者序列中表现突出。
- 融合形状准确恢复了整体身体形状,而详细形状则捕捉到了面部细节和身体轮廓等局部特征,视觉上更接近真实值。
- 该方法在INRIA数据集和新引入的BUFF数据集上,无论是定量还是定性评估,均优于当前最先进方法。
- 公开发布的BUFF数据集包含六名受试者(3名男性,3名女性)的11,054个高分辨率3D扫描,涵盖多种服装风格,附带真实最小着装形状,支持严格的定量评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。