[论文解读] ShapeCrafter: A Recursive Text-Conditioned 3D Shape Generation Model
ShapeCrafter 引入递归文本条件的 3D 形状生成,使用基于 Transformer 的自回归模型和大型 Text2Shape++ 数据集,在添加更多短语时演化形状分布,从而实现编辑和外推。
We present ShapeCrafter, a neural network for recursive text-conditioned 3D shape generation. Existing methods to generate text-conditioned 3D shapes consume an entire text prompt to generate a 3D shape in a single step. However, humans tend to describe shapes recursively-we may start with an initial description and progressively add details based on intermediate results. To capture this recursive process, we introduce a method to generate a 3D shape distribution, conditioned on an initial phrase, that gradually evolves as more phrases are added. Since existing datasets are insufficient for training this approach, we present Text2Shape++, a large dataset of 369K shape-text pairs that supports recursive shape generation. To capture local details that are often used to refine shape descriptions, we build on top of vector-quantized deep implicit functions that generate a distribution of high-quality shapes. Results show that our method can generate shapes consistent with text descriptions, and shapes evolve gradually as more phrases are added. Our method supports shape editing, extrapolation, and can enable new applications in human-machine collaboration for creative design.
研究动机与目标
- 在单次提示之外,推动递归的逐句/逐短语的 3D 形状生成。
- 开发一个数据集(Text2Shape++),以支持带短语序列的递归生成。
- 将 3D 形状表示并演化为局部潜在特征的分布,以捕捉细节。
- 在 3D 生成中实现形状编辑、外推和对长序列短语的条件化。
提出的方法
- 使用向量量化深度隐式函数(P-VQ-VAE)将形状编码为一个 3D 潜在特征索引网格。
- 使用微调后的 BERT 模型提取文本特征,并将其投影到 3D 网格分辨率。
- 自回归地建模网格特征的联合分布,条件为文本和先前步骤。
- 将一个短语序列的形状表示为一个概率形状集合 Z-set,以捕捉多个真实形状。
- 使用 Text2Shape++ 进行训练以学习递归生成,并使用一个带重新排序输入的随机 Transformer,以实现对序列的鲁棒处理。
实验结果
研究问题
- RQ1递归的逐短语文本描述是否能够在保留先前细节的同时逐步细化 3D 形状分布?
- RQ2Text2Shape++ 是否能够在较长短语序列上实现对递归形状生成的有效训练?
- RQ3编码为分布的形状集合相比单一形状基线是否实现了更高的保真度和编辑能力?
- RQ4ShapeCrafter 在长短语序列上的性能如何,并且如何对新描述进行外推?
主要发现
| 指标 | Mittal et al. [33] | ShapeCrafter (Ours) |
|---|---|---|
| CLIP-S↑ | 48.92 | 52.43 |
| SGLOT-C↑ | 0.46 | 0.53 |
| FID↓ | 18.45 | 16.36 |
- ShapeCrafter 在 CLIP-Similarity 和 ShapeGlot-Confidence 指标上,相比单步基线(AutoSDF)具有更高的文本–形状对应性与形状质量。
- 该方法产生更低的 FID 分数,表示形状细节质量的提升,并且随着短语序列长度增加,性能维持或提升。
- ShapeCrafter 生成的形状与新增短语一致演化,支持逐步编辑和对新描述的外推。
- 随着短语数量增加,逐网格分布的熵值下降,显示出在更长提示下形状生成越来越确定。
- 消融实验显示条件训练、随机 Transformer 和输入序列排序都对提高 CLIP-Similarity 和降低 FID 有贡献。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。