QUICK REVIEW

[论文解读] KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative Spatial Encoding of Keypoints

Marko Mihajlovic, Aayush Bansal|arXiv (Cornell University)|Jan 1, 2022

Human Pose and Action Recognition被引用 2

一句话总结

KeypointNeRF 提出了一种新颖的时空编码方法，利用稀疏的3D关键点，仅需两到三张图像即可实现高保真度、可泛化的基于图像的人体体积重建。通过将相对3D空间信息编码到关键点上，而非依赖全局编码，该方法在无需微调的情况下，实现了头像重建的最先进性能，并能稳健泛化到未见过的主体和真实环境中的iPhone拍摄图像。

ABSTRACT

Image-based volumetric humans using pixel-aligned features promise generalization to unseen poses and identities. Prior work leverages global spatial encodings and multi-view geometric consistency to reduce spatial ambiguity. However, global encodings often suffer from overfitting to the distribution of the training data, and it is difficult to learn multi-view consistent reconstruction from sparse views. In this work, we investigate common issues with existing spatial encodings and propose a simple yet highly effective approach to modeling high-fidelity volumetric humans from sparse views. One of the key ideas is to encode relative spatial 3D information via sparse 3D keypoints. This approach is robust to the sparsity of viewpoints and cross-dataset domain gap. Our approach outperforms state-of-the-art methods for head reconstruction. On human body reconstruction for unseen subjects, we also achieve performance comparable to prior work that uses a parametric human body model and temporal feature aggregation. Our experiments show that a majority of errors in prior work stem from an inappropriate choice of spatial encoding and thus we suggest a new direction for high-fidelity image-based human modeling. https://markomih.github.io/KeypointNeRF

研究动机与目标

解决基于图像的神经辐射场中全局空间编码的局限性，后者通常会过拟合于训练数据分布。
提升对未见身份和姿态的泛化能力，尤其是在视角稀疏且基线较宽的情况下。
实现在未微调的情况下，从工作室拍摄数据到真实环境iPhone拍摄图像的零样本迁移。
在不依赖参数化人体模型或时间特征聚合的情况下，实现高保真度的体积重建。
探究空间编码选择对神经辐射场中人体形象重建质量与泛化能力的影响。

提出的方法

该方法使用2D关键点检测器在输入图像中估计2D关键点，随后通过三角测量法将其转换为3D关键点。
通过可学习的嵌入层，将每个查询点相对于3D关键点的位置表示为相对3D空间编码。
将相对空间编码与像素对齐的特征拼接后，输入到基于NeRF的辐射场网络中进行体积渲染。
该空间编码对相机参数具有不变性，因此对姿态和视角变化具有鲁棒性。
模型通过多视角一致性损失和渲染图像上的L1损失进行端到端训练。
该方法无需参数化人体模型或时间特征融合，可直接应用于全身重建。

实验结果

研究问题

RQ1空间编码的选择如何影响基于图像的体积人体重建中的泛化能力？
RQ2通过3D关键点实现的相对空间编码是否能提升在稀疏、宽基线视角下的重建保真度与鲁棒性？
RQ3在未微调的情况下，仅使用工作室拍摄数据训练的模型，能在多大程度上泛化到真实环境中的iPhone拍摄图像？
RQ4在零样本泛化到未见身份和姿态时，基于关键点的空间编码是否优于全局编码？
RQ5仅基于关键点的方法能否实现与依赖参数化人体模型和时间聚合的复杂方法相当的性能？

主要发现

KeypointNeRF 在头像重建方面达到最先进性能，在动态表情下PSNR为27.30，SSIM为85.31。
在真实环境的iPhone拍摄图像上，KeypointNeRF 的PSNR为25.29，SSIM为86.73，显著优于IBRNet（PSNR 18.45，SSIM 81.74）。
该方法仅使用工作室拍摄的训练数据，即可实现对未见iPhone拍摄图像的零样本泛化，这是之前工作未能实现的能力。
在ZJU-MoCap数据集上的全身重建中，KeypointNeRF 的PSNR为25.03，SSIM为89.69，与复杂模型Neural Human Performer（NHP）性能相当。
消融实验表明，若移除相对空间编码，PSNR将下降至24.66，SSIM下降至89.30，证实了其关键作用。
该方法表明，不恰当的空间编码是先前工作中重建错误的主要原因，提示了神经渲染领域的新研究方向。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。