[论文解读] Capturing and Animation of Body and Clothing from Monocular Video
SCARF 提出了一种混合 3D 虚拟化身表示方法,通过基于网格的身体模型与用于衣物的神经辐射场(NeRF)实现身体与衣物的解耦,从而能够从单目视频中实现高保真度重建与动画。该方法实现了细节丰富、可动画化的虚拟化身,支持可控的面部表情、手部动作以及衣物转移,在虚拟试穿和虚拟现实应用中,其视觉质量与灵活性优于现有方法。
While recent work has shown progress on extracting clothed 3D human avatars from a single image, video, or a set of 3D scans, several limitations remain. Most methods use a holistic representation to jointly model the body and clothing, which means that the clothing and body cannot be separated for applications like virtual try-on. Other methods separately model the body and clothing, but they require training from a large set of 3D clothed human meshes obtained from 3D/4D scanners or physics simulations. Our insight is that the body and clothing have different modeling requirements. While the body is well represented by a mesh-based parametric 3D model, implicit representations and neural radiance fields are better suited to capturing the large variety in shape and appearance present in clothing. Building on this insight, we propose SCARF (Segmented Clothed Avatar Radiance Field), a hybrid model combining a mesh-based body with a neural radiance field. Integrating the mesh into the volumetric rendering in combination with a differentiable rasterizer enables us to optimize SCARF directly from monocular videos, without any 3D supervision. The hybrid modeling enables SCARF to (i) animate the clothed body avatar by changing body poses (including hand articulation and facial expressions), (ii) synthesize novel views of the avatar, and (iii) transfer clothing between avatars in virtual try-on applications. We demonstrate that SCARF reconstructs clothing with higher visual quality than existing methods, that the clothing deforms with changing body pose and body shape, and that clothing can be successfully transferred between avatars of different subjects. The code and models are available at https://github.com/YadiraF/SCARF.
研究动机与目标
- 解决整体表示方法在同时建模身体与衣物方面的局限性,该局限性阻碍了虚拟试穿等应用的实现。
- 通过仅从单目视频端到端优化、无需 3D 监督,克服对大规模 3D 扫描数据集的依赖。
- 实现细节丰富、可动画化的虚拟化身,可分别控制身体姿态、面部表情、手部动作与衣物外观。
- 在保持几何一致性的同时,实现衣物形变与新视角合成的高视觉保真度。
- 支持在不同受试者之间的虚拟化身之间实现衣物转移,从而支持实际的虚拟试穿应用。
提出的方法
- 使用参数化网格身体模型(如 SMPL-X)表示具有姿态与体型参数的底层人体。
- 利用神经辐射场(NeRF)建模衣物,隐式表示在不同姿态下的形状、颜色与外观。
- 通过可微分光栅化器将网格集成到体素渲染流程中,实现从单目视频的端到端优化。
- 应用姿态条件变形模型,模拟姿态变化时的真实衣物动态。
- 利用时间一致性与光流改进训练过程中的身体-衣物分割。
- 使用可微分渲染目标优化混合模型,最小化视频帧之间的光度损失与几何损失。
实验结果
研究问题
- RQ1结合基于网格的身体与用于衣物的神经辐射场的混合表示方法,能否实现从单目视频中高保真度、解耦的 3D 虚拟化身重建?
- RQ2该模型能否在保持衣物真实感的同时,支持面部表情、手部动作与身体姿态变化的详细动画?
- RQ3能否利用这种解耦表示在不同受试者的虚拟化身之间成功实现衣物转移?
- RQ4该方法是否能在无需 3D 监督的情况下泛化到未见过的姿态与新视角?
- RQ5与整体 NeRF 或仅网格基线模型相比,该混合模型在视觉质量与几何保真度方面表现如何?
主要发现
- 与现有方法相比,SCARF 在衣物重建方面实现了更优的视觉质量,尤其在宽松连衣裙与多层衣物等复杂服装上表现更佳。
- 通过利用 PIXIE 输出的姿态估计,该方法成功实现了面部表情与手部动作的动画,支持富有表现力的虚拟化身控制。
- 在不同体型与姿态的虚拟化身之间实现了高保真度的衣物转移,支持实际的虚拟试穿应用。
- 该模型能泛化到新姿态与新视角,从未见过的相机角度生成具有极少伪影的逼真图像。
- 消融实验证实,混合网格-NeRF 表示在重建面部、手部与复杂衣物方面优于整体 NeRF 与仅网格基线模型。
- 可微分渲染流程实现了从单目视频的端到端优化,无需 3D 真值或大规模 3D 扫描数据。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。