QUICK REVIEW

[论文解读] Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans

Sida Peng, Yuanqing Zhang|arXiv (Cornell University)|Dec 31, 2020

Advanced Vision and Imaging参考文献 65被引用 21

一句话总结

Neural Body 提出了一种新颖的隐式神经表示方法，通过将共享的潜在代码锚定到可变形 SMPL 人体网格上，实现了从稀疏多视角视频中动态人体的新型视角合成，从而实现跨帧观测信息的整合。该方法在 ZJU-MoCap 和单目视频重建任务上达到了最先进性能，PSNR 和 SSIM 指标显著优于先前方法。

ABSTRACT

This paper addresses the challenge of novel view synthesis for a human performer from a very sparse set of camera views. Some recent works have shown that learning implicit neural representations of 3D scenes achieves remarkable view synthesis quality given dense input views. However, the representation learning will be ill-posed if the views are highly sparse. To solve this ill-posed problem, our key idea is to integrate observations over video frames. To this end, we propose Neural Body, a new human body representation which assumes that the learned neural representations at different frames share the same set of latent codes anchored to a deformable mesh, so that the observations across frames can be naturally integrated. The deformable mesh also provides geometric guidance for the network to learn 3D representations more efficiently. To evaluate our approach, we create a multi-view dataset named ZJU-MoCap that captures performers with complex motions. Experiments on ZJU-MoCap show that our approach outperforms prior works by a large margin in terms of novel view synthesis quality. We also demonstrate the capability of our approach to reconstruct a moving person from a monocular video on the People-Snapshot dataset. The code and dataset are available at https://zju3dv.github.io/neuralbody/.

研究动机与目标

为解决从极稀疏多视角动态人体视频中进行新型视角合成的病态问题。
通过整合视频帧之间的时序观测信息，提升在稀疏观测下的 3D 表征学习能力。
开发一种几何引导的隐式神经表示，使其在不同姿态间具有泛化能力，同时保持高保真度的几何与外观表征。
实现从单目 RGB 视频中高质量的 3D 重建与视角合成，突破多视角设置的限制。

提出的方法

Neural Body 将一组潜在代码锚定到可变形 SMPL 网格的顶点上，这些代码根据每帧的人体姿态进行空间变换。
同一组潜在代码被用于生成所有视频帧的隐式 3D 表征（密度与颜色），从而实现在时间维度上的联合优化。
通过神经网络使用变换后的潜在代码回归任意空间位置的 3D 场景属性，结合体素渲染实现可微分的图像合成。
模型通过在所有输入视角上使用体素渲染损失进行端到端训练，可变形网格为高效学习提供了几何先验。
引入每帧的潜在嵌入，以允许帧特定的细节变化，同时保持共享代码结构以实现跨帧一致性。
该方法借助潜在变量模型框架，有效融合帧间观测信息，降低了稀疏设置下的歧义性。

实验结果

研究问题

RQ1隐式神经表示能否在视频帧之间有效共享，以提升在稀疏输入视角下的新型视角合成性能？
RQ2来自可变形人体模型的几何先验如何增强动态场景中 3D 隐式表征的学习？
RQ3通过姿态变换的一组潜在代码，在多样的人体动作与外观中能多大程度实现泛化？
RQ4所提出的方法能否在 3D 监督有限的单目 RGB 视频中实现高质量的新型视角合成？
RQ5时序观测信息的整合在多大程度上提升了 3D 重建与视角合成的鲁棒性与质量？

主要发现

在 ZJU-MoCap 数据集上，Neural Body 在六视角训练下达到 32.73 PSNR 和 0.979 SSIM，显著优于先前方法。
在单视角训练下，模型达到 25.08 PSNR，超越了在四视角上训练的先前方法（23.12 PSNR）。
在更长的视频序列（最多 600 帧）上训练可提升性能至 30.59 PSNR，但在 1200 帧时性能略有下降，归因于训练难度增加。
引入每帧潜在嵌入使 PSNR 提升 0.53 分（从 30.03 提升至 30.56），证明其对帧特定细节的重要性。
在 People-Snapshot 单目数据集上，Neural Body 在外观细节（尤其是宽松衣物）的渲染上比先前工作更准确。
定性结果表明，几何细节恢复更优，包括一致的发丝形状与准确的衣物形变，即使在复杂光照条件下亦表现良好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。