QUICK REVIEW

[论文解读] EVA3D: Compositional 3D Human Generation from 2D Image Collections

Fangzhou Hong, Zhaoxi Chen|arXiv (Cornell University)|Oct 10, 2022

Human Pose and Action Recognition被引用 35

一句话总结

EVA3D 通过使用组合式 NeRF 表示和基于姿态引导的训练，从二维图像集合中学习高分辨率、无条件的三维人体生成器，合成可动画的三维人体，具备现实的几何和纹理。

ABSTRACT

Inverse graphics aims to recover 3D models from 2D observations. Utilizing differentiable rendering, recent 3D-aware generative models have shown impressive results of rigid object generation using 2D images. However, it remains challenging to generate articulated objects, like human bodies, due to their complexity and diversity in poses and appearances. In this work, we propose, EVA3D, an unconditional 3D human generative model learned from 2D image collections only. EVA3D can sample 3D humans with detailed geometry and render high-quality images (up to 512x256) without bells and whistles (e.g. super resolution). At the core of EVA3D is a compositional human NeRF representation, which divides the human body into local parts. Each part is represented by an individual volume. This compositional representation enables 1) inherent human priors, 2) adaptive allocation of network parameters, 3) efficient training and rendering. Moreover, to accommodate for the characteristics of sparse 2D human image collections (e.g. imbalanced pose distribution), we propose a pose-guided sampling strategy for better GAN learning. Extensive experiments validate that EVA3D achieves state-of-the-art 3D human generation performance regarding both geometry and texture quality. Notably, EVA3D demonstrates great potential and scalability to "inverse-graphics" diverse human bodies with a clean framework.

研究动机与目标

解释为什么需要从二维图像集合生成高质量三维人体，尽管姿态和外观复杂。
提出基于组合式 NeRF 的表示，以高效建模关节人类。
开发训练策略以解决二维数据集中的姿态/视点不平衡。
在高渲染分辨率下展示最先进的三维人体生成质量，无需超分辨率模块。

提出的方法

引入一个具备16个部件特定子网的组合式人体 NeRF，每个子网建模人体局部边界框。
在规范空间查询局部子网，当点位于多个边界框时，使用带窗融合方案混合输出。
通过基于 SMPL 的前向/反向 LBS 将边界框变换到目标姿态，采样局部体积中的点，并将它们变换回规范空间以进行 NeRF 查询来渲染射线。
将 SMPL 作为强先验，在规范空间与观测空间之间变换纹理/几何，并从模板网格预测几何偏移（Delta SDF）。
预测 SDF 偏移 Delta d(x) 而非绝对 SDF，以利用人体先验，并应用 Eikonal 损失以强制有效的几何梯度。
通过基于姿态引导的采样（以正视头部角度为中心的高斯分布）平衡 2D 姿态/视点分布，以改进几何学习。
使用 GAN 框架训练，其中 G 由来自 z 的渲染以及来自从二维图像推导的学习得到的 p_est 的姿态/形状参数来渲染，D 对真实的二维集合进行判别。
使用正则化项包括 L_off（偏移幅值）和 L_eik（偏移的平滑度），以稳定 Delta SDF 学习。
使用非饱和 GAN 损失和 R1 正则化进行优化，并通过 delta-SDF 损失来保持合理的人体几何。

实验结果

研究问题

RQ1基于组合式 NeRF 的表示是否能够在仅基于二维图像集合的条件下实现高分辨率三维人体生成？
RQ2在不平衡的二维姿态分布下，SMPL 先验与姿态引导采样如何提升几何和纹理质量？
RQ3从基于 SMPL 的模板预测 SDF 偏移对三维真实感与姿态可控性的影响？
RQ4在没有来自三维数据监督的情况下，EVA3D 在可控姿态/形状编辑与忠实的三维/二维一致性方面能达到何种程度？

主要发现

EVA3D 实现高分辨率（512×256）的渲染与训练；无需超分辨率模块，在多个数据集上超越基线。
组合式 NeRF 表示通过将计算局部化到身体部件来提高效率，并实现对关节人类更好的三维一致性。
具有 SMPL 先验的 Delta SDF 显著提升 FID 和深度准确性，表明在稀疏二维姿态下更好几何学习。
姿态引导采样改善几何（深度误差下降），但与 RGB 质量存在权衡，前视中心的高斯分布提供了平衡结果。
EVA3D 在 DeepFashion、SHHQ、UBCFashion、AIST 数据集上达到最先进的 FID/KID 与深度指标，并展示可控的姿态/形状生成与三维一致性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。