[论文解读] Video Based Reconstruction of 3D People Models
本文提出了一种新颖的方法,仅通过单张移动人物的单目RGB视频,即可重建出包含衣物、头发和纹理的详细个性化3D人体模型。通过将未校正的轮廓射线映射到标准T型姿势参考帧并融合为共识视觉外壳,该方法实现了4.5毫米精度的准确单模型优化,生成可动画化且带纹理的虚拟形象,且无需专用硬件。
This paper describes how to obtain accurate 3D body models and texture of arbitrary people from a single, monocular video in which a person is moving. Based on a parametric body model, we present a robust processing pipeline achieving 3D model fits with 5mm accuracy also for clothed people. Our main contribution is a method to nonrigidly deform the silhouette cones corresponding to the dynamic human silhouettes, resulting in a visual hull in a common reference frame that enables surface reconstruction. This enables efficient estimation of a consensus 3D shape, texture and implanted animation skeleton based on a large number of frames. We present evaluation results for a number of test subjects and analyze overall performance. Requiring only a smartphone or webcam, our method enables everyone to create their own fully animatable digital double, e.g., for social VR applications or virtual try-on for online fashion shopping.
研究动机与目标
- 实现仅通过单张单目RGB视频对全身人体形状(包括衣物和头发)进行高精度3D重建。
- 克服单目深度模糊性与动态运动在3D人体重建中的限制。
- 生成包含嵌入式骨骼与纹理的完全可动画化3D模型,适用于虚拟现实、虚拟试穿和生物识别应用。
- 通过将动态轮廓转换为统一的参考坐标系,将视觉外壳方法推广至单目视频。
- 在无需多视角相机、深度传感器或预扫描模板的情况下实现高几何保真度。
提出的方法
- 该方法以SMPL参数化人体模型为基础,并通过自由形式的顶点位移扩展,以捕捉衣物与人体几何的细节。
- 通过将SMPL拟合到2D关键点检测结果,逐帧估计2D姿态与形状,从而建立图像轮廓与3D模型点之间的对应关系。
- 每条轮廓射线通过其对应3D点的逆形变模型进行变换,该过程称为“去姿态化”(unposing),以将动态轮廓对齐至标准T型姿势参考帧。
- 将所有帧的去姿态化射线融合为共识视觉外壳,从而在标准空间中约束3D形状。
- 通过联合优化最小化3D模型顶点与去姿态化射线之间的距离,仅需在内存中保留一个模型,即可高效地优化形状参数与位移场。
- 最终模型包含可绑定的骨骼与纹理,支持基于姿态的皮肤权重计算与动画。
实验结果
研究问题
- RQ1能否在无需预扫描或深度传感器的情况下,仅通过单张单目RGB视频重建出包含衣物与头发的高精度3D人体模型?
- RQ2如何将运动中的人体轮廓动态转换为统一的参考坐标系,以实现视觉外壳融合?
- RQ3仅使用RGB视频与带位移场的参数化人体模型,可实现何种几何精度?
- RQ4该方法在真实视频序列中面对噪声较大的3D姿态估计时是否具有鲁棒性?
- RQ5重建的模型能否支持真实动画,并实现虚拟试穿或VR应用所需的精确图像对齐?
主要发现
- 在真实世界数据集上,该方法实现了4.5毫米的平均重建精度,即使存在单目深度模糊性。
- 在使用真实姿态的情况下,重建精度提升至3.1毫米,证明了其高几何保真度。
- 该方法成功仅通过轮廓约束重建了包括衣物褶皱与身体轮廓在内的详细表面几何。
- 重建模型与输入图像精确对齐,通过将重定姿态的模型叠加到原始帧上,实现了近乎完美的轮廓匹配。
- 尽管仅使用RGB输入,该方法在应对单目重建固有的病态问题方面,仍优于基于深度的方案(如KinectCap),表现出更强的鲁棒性。
- 通过形状恢复光照(shape-from-shading)进行表面精炼,进一步提升了细小细节(如皱纹与织物褶皱)的保真度,证实了初始模型与图像对齐的准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。