[论文解读] Adversarial Generation of Continuous Implicit Shape Representations
本文提出一种生成对抗网络(GAN),通过使用有符号距离函数(SDF)学习生成连续的3D形状,利用可微分渲染实现高分辨率、无缝的输出。该方法提出了一种新颖的基于点的判别器优化策略,使其更专注于零等值面,从而提升形状细节和泛化能力,在ShapeNet数据集上多个指标上达到最先进性能。
This work presents a generative adversarial architecture for generating three-dimensional shapes based on signed distance representations. While the deep generation of shapes has been mostly tackled by voxel and surface point cloud approaches, our generator learns to approximate the signed distance for any point in space given prior latent information. Although structurally similar to generative point cloud approaches, this formulation can be evaluated with arbitrary point density during inference, leading to fine-grained details in generated outputs. Furthermore, we study the effects of using either progressively growing voxel- or point-processing networks as discriminators, and propose a refinement scheme to strengthen the generator's capabilities in modeling the zero iso-surface decision boundary of shapes. We train our approach on the ShapeNet benchmark dataset and validate, both quantitatively and qualitatively, its performance in generating realistic 3D shapes.
研究动机与目标
- 开发一种基于GAN的框架,利用有符号距离函数(SDF)生成连续的3D形状表示,克服离散体素和点云方法的局限性。
- 研究基于体素的判别器与基于点处理的判别器在隐式形状生成对抗训练中的有效性差异。
- 通过基于梯度信息优化判别器输入点,提升生成器对形状关键零等值面的建模能力。
- 通过连续SDF预测实现高分辨率、可泛化的3D形状生成,具备精细的几何细节。
- 在ShapeNet上进行定量验证,并展示生成形状在质量与多样性上的定性表现。
提出的方法
- 生成器采用带有跳跃连接的深层前馈网络,将128维潜在码映射到3D空间中的连续SDF,遵循DeepSDF架构。
- 判别器采用两种变体:用于体素输入的3D卷积神经网络(CNN)和基于PointNet的架构,用于点云输入,并采用渐进式训练。
- 提出一种优化策略:利用SDF梯度在表面附近采样额外点,提升判别器对零等值面的关注度。
- 对两种判别器类型均应用渐进式训练,从低分辨率(8³)逐步训练至高分辨率(64³),以稳定训练过程。
- 使用WGAN-GP损失函数并采用RMSProp优化,推理阶段在任意点密度下评估SDF值。
- 通过Marching Cubes算法从预测的SDF重建网格,用于定性和定量评估。
实验结果
研究问题
- RQ1GAN能否有效利用有符号距离函数作为隐式表示,生成连续的3D形状?
- RQ2基于体素的判别器与基于点处理的判别器在引导生成器学习真实SDF方面的能力有何差异?
- RQ3通过梯度信息优化判别器使用的点集,是否能提升零等值面的建模效果及整体形状质量?
- RQ4即使在低分辨率SDF上进行训练,生成器是否仍能泛化到高分辨率输出?
- RQ5所提出的优化策略在多大程度上增强了判别器对形状边界附近分布差异的检测能力?
主要发现
- 在飞机类别上,经优化的点判别器在JSD(0.072)和MMD-EMD(0.070)上均取得最佳表现,优于基线点判别器和体素判别器。
- 在椅子类别上,优化方法在JSD(0.078)和MMD-EMD(0.086)上也持续优于非优化基线。
- 基于体素的判别器在椅子类别上取得JSD 0.076、飞机类别上取得JSD 0.093,表现出从低到高分辨率的强泛化能力。
- 潜在空间中的线性插值产生了平滑且合理的形状过渡,证实了学习到的码空间具有连续性和解耦性。
- 从在8³体素上训练的模型生成的高分辨率输出(128³)未出现退化,证明了该方法可泛化至任意点密度。
- 与先前基于GAN和自编码器的方法相比,该方法在ShapeNet两个类别上的所有指标(JSD、MMD、COV)均达到最先进或具有竞争力的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。