QUICK REVIEW

[论文解读] PINA: Learning a Personalized Implicit Neural Avatar from a Single RGB-D Video Sequence

Zijian Dong, Chen Guo|arXiv (Cornell University)|Jan 1, 2022

Advanced Vision and Imaging被引用 3

一句话总结

PINA 提出了一种方法，仅使用单个 RGB-D 视频序列即可学习个性化、可动画化的神经化身，其核心是基于规范空间的隐式符号距离场（SDF）和姿态条件化的皮肤权重场。通过在噪声大、不完整的深度观测数据上联合优化形状、姿态和皮肤权重，PINA 实现了高保真度的重建，并能将变形泛化到未见过的姿态，尽管仅使用 2.5D 输入，仍优于当前最先进方法。

ABSTRACT

We present a novel method to learn Personalized Implicit Neural Avatars (PINA) from a short RGB-D sequence. This allows non-expert users to create a detailed and personalized virtual copy of themselves, which can be animated with realistic clothing deformations. PINA does not require complete scans, nor does it require a prior learned from large datasets of clothed humans. Learning a complete avatar in this setting is challenging, since only few depth observations are available, which are noisy and incomplete (i.e. only partial visibility of the body per frame). We propose a method to learn the shape and non-rigid deformations via a pose-conditioned implicit surface and a deformation field, defined in canonical space. This allows us to fuse all partial observations into a single consistent canonical representation. Fusion is formulated as a global optimization problem over the pose, shape and skinning parameters. The method can learn neural avatars from real noisy RGB-D sequences for a diverse set of people and clothing styles and these avatars can be animated given unseen motion sequences.

研究动机与目标

使非专业用户能够仅通过单个消费级 RGB-D 视频创建详细、个性化的 3D 化身。
从噪声大且不完整的深度观测中重建出具有复杂衣物细节的高保真 3D 几何形状。
在无需完整扫描或对穿着人体的先验知识的前提下，学习可动画化的化身，实现逼真、由姿态驱动的表面形变。
在规范空间表示中联合优化形状、每帧姿态和皮肤权重，以实现对部分观测的一致融合。
在不重新训练或显式监督的情况下，实现对新姿态（分布外姿态）的泛化。

提出的方法

将人体表示为规范空间中的隐式 SDF，从而在视频序列中实现对部分深度观测的一致融合。
提出一种在规范空间中定义的姿态条件化皮肤权重场，用于建模由身体姿态驱动的非刚性形变。
采用基于点的监督方案，将姿态空间中 SDF 的空间梯度与深度图像的表面法向量进行比较，以学习几何细节。
在形状、每帧姿态和皮肤权重上执行全局优化，以联合优化规范 SDF 和形变场。
通过优化利用规范空间对应关系，受 SNARF 启发，处理从形变空间到规范空间的逆映射。
采用可微分的渲染流水线，仅使用深度观测监督 SDF 和皮肤权重场，避免对真实法向量或完整网格的依赖。

实验结果

研究问题

RQ1能否在无需完整扫描或先验数据集的情况下，从单个噪声大且不完整的 RGB-D 视频序列中准确重建神经化身？
RQ2规范空间中的隐式 SDF 表示能否有效融合不完整的深度观测，形成一致且详细的 3D 形状？
RQ3在规范空间中联合优化的皮肤权重场与 SDF 能否在未见姿态下泛化，同时保持逼真的衣物形变？
RQ4当仅在部分 2.5D 输入上训练时，该方法在重建精度和动画保真度方面与当前最先进方法相比表现如何？
RQ5该方法能否从真实世界的 RGB-D 序列中学习多样的衣物风格和复杂几何结构（如连帽、羽绒服）？

主要发现

PINA 在 CAPE 数据集上达到 0.946 的 IoU，优于 IP-Net（0.916）和 SCANimate（2.5D）（0.665），且在仅使用部分 2.5D 输入的情况下，性能与 SCANimate（3D）相当。
该方法在 CAPE 上的 C−ℓ2 损失为 0.666，显著低于 IP-Net（0.786）和 SCANimate（2.5D）（3.704），表明其重建精度更优。
定性结果表明，PINA 在重建复杂衣物几何结构（如连帽、高领、羽绒服）方面，比显式网格方法（如 CAPE 和 DSFN）更准确。
在动画生成方面，PINA 在未见姿态下产生逼真的形变，而 IP-Net 和 SCANimate 因过拟合和姿态依赖的形变场，表现出伪影和不自然的形变。
该方法能很好地泛化到新型运动序列，包括跳舞和运动，展示了对分布外姿态的鲁棒性。
在规范空间中联合优化形状、姿态和皮肤权重，实现了无需目标或衣物先验知识的一致、无伪影形变。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。