[论文解读] Shap-E: Generating Conditional 3D Implicit Functions
Shap-E 训练一个两阶段模型,将 3D 资产编码为隐函数参数,随后学习一个条件扩散先验,以生成多样化的文本或图像条件下的 3D 资产,这些资产可呈现为 NeRFs 或带纹理的网格。相较于 Point-E,它实现了更快的收敛速度和具有竞争力的样本质量,同时支持多重表示输出。
We present Shap-E, a conditional generative model for 3D assets. Unlike recent work on 3D generative models which produce a single output representation, Shap-E directly generates the parameters of implicit functions that can be rendered as both textured meshes and neural radiance fields. We train Shap-E in two stages: first, we train an encoder that deterministically maps 3D assets into the parameters of an implicit function; second, we train a conditional diffusion model on outputs of the encoder. When trained on a large dataset of paired 3D and text data, our resulting models are capable of generating complex and diverse 3D assets in a matter of seconds. When compared to Point-E, an explicit generative model over point clouds, Shap-E converges faster and reaches comparable or better sample quality despite modeling a higher-dimensional, multi-representation output space. We release model weights, inference code, and samples at https://github.com/openai/shap-e.
研究动机与目标
- 推动生成以隐函数表达的条件 3D 资产,而非固定表示。
- 开发将 3D 资产映射到隐函数参数的可扩展编码-扩散框架。
- 训练一个以文本或图像为条件的编码器输出的扩散先验,以实现文本或图像条件下的 3D 生成。
- 证明隐式表示在推理速度更快的情况下,能够达到与显式点云基线相当或更好的样本质量。
提出的方法
- 训练一个基于 Transformer 的编码器,将密集 3D 表示(点云与渲染视图)映射到隐式函数参数,供作为 NeRF 与 STF 的多层感知机使用。
- 用 NeRF 渲染目标对编码器进行预训练,然后扩展为 SDF 和纹理头,并在微调前通过蒸馏实现稳定。
- 在编码器输出(潜在向量)上训练一个以文本或图像为条件的扩散先验,在采样时使用无分类器引导。
- 使用潜在扩散,结合与 MLP 权重行对应的潜在向量序列,从而实现高维隐式表示。
- 通过可微分渲染和 marching cubes 将输出渲染为基于 NeRF 和基于 STF 的网格,并对 STF 输出进行端到端微调。
- 采用与 Point-E 相似的潜在扩散训练与采样策略,包含直接的 x0 预测和用于条件的引导尺度。
实验结果
研究问题
- RQ1一个以文本或图像为条件的扩散模型是否能够生成以隐函数编码的多样且高质量的 3D 资产?
- RQ2在潜在扩散空间直接预测隐式 MLP 权重是否能够与显式 3D 表示(如点云)相比,得到有竞争力的结果?
- RQ3当以文本或图像为条件时,Shap-E 相对于先前的 3D 生成模型(如 Point-E)在速度和样本质量方面的扩展能力如何?
- RQ4在统一的隐式表示框架中,NeRF 渲染与 STF(纹理/网格)渲染之间有哪些权衡?
主要发现
| 方法 | ViT-B/32 | ViT-L/14 | 延迟 |
|---|---|---|---|
| DreamFields | 78.6% | 82.9% | ~200 V100-hr |
| CLIP-Mesh | 67.8% | 74.5% | ~17 V100-min |
| DreamFusion | 75.1% | 79.7% | ~12 V100-hr |
| Point ⋅ E (300M, text-only) | 33.6% ∗ | 35.5% ∗ | 25 V100-sec |
| Shap ⋅ E (300M, text-only) | 37.8% ∗ | 40.9% ∗ | 13 V100-sec |
| Point ⋅ E (300M) | 40.3% | 45.6% | 1.2 V100-min |
| Point ⋅ E (1B) | 41.1% | 46.8% | 1.5 V100-min |
| Shap ⋅ E (300M) | 41.1% | 46.4% | 1.0 V100-min |
| Conditioning images | 69.6% | 86.6% | - |
- Shap-E 在若干指标上实现了更快的收敛,并且样本质量可与 Point-E 相比甚至更优。
- 文本条件下的 Shap-E 提升了基于 CLIP 的指标,相比可比的 Point-E 模型,尽管在后期训练阶段观察到一定的过拟合。
- Shap-E 能够从同一隐函数表示生成 NeRF 和带纹理的网格渲染。
- 在大规模数据下,Shap-E 能生成多样且可辨识的 3D 资产,条件为文本或图像提示。
- 推理延迟显著低于基于优化的 3D 生成方法,也比一些先前的扩散式 3D 方法更快。
- 定性分析显示,在影像条件下 Shap-E 与 Point-E 之间存在共同的成功/失败模式,但在文本条件下出现显著差异。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。