Skip to main content
QUICK REVIEW

[论文解读] LION: Latent Point Diffusion Models for 3D Shape Generation

Xiaohui Zeng, Arash Vahdat|arXiv (Cornell University)|Oct 12, 2022
3D Shape Modeling and Analysis被引用 189
一句话总结

LION 引入了一个用于3D形状生成的层级潜在扩散框架,使用带潜在点和全局形状潜在变量的两阶段 VAE,在 ShapeNet 基准上达到最新技术水平,并实现多模态去噪、体素条件合成、网格重建等灵活任务。

ABSTRACT

Denoising diffusion models (DDMs) have shown promising results in 3D point cloud synthesis. To advance 3D DDMs and make them useful for digital artists, we require (i) high generation quality, (ii) flexibility for manipulation and applications such as conditional synthesis and shape interpolation, and (iii) the ability to output smooth surfaces or meshes. To this end, we introduce the hierarchical Latent Point Diffusion Model (LION) for 3D shape generation. LION is set up as a variational autoencoder (VAE) with a hierarchical latent space that combines a global shape latent representation with a point-structured latent space. For generation, we train two hierarchical DDMs in these latent spaces. The hierarchical VAE approach boosts performance compared to DDMs that operate on point clouds directly, while the point-structured latents are still ideally suited for DDM-based modeling. Experimentally, LION achieves state-of-the-art generation performance on multiple ShapeNet benchmarks. Furthermore, our VAE framework allows us to easily use LION for different relevant tasks: LION excels at multimodal shape denoising and voxel-conditioned synthesis, and it can be adapted for text- and image-driven 3D generation. We also demonstrate shape autoencoding and latent shape interpolation, and we augment LION with modern surface reconstruction techniques to generate smooth 3D meshes. We hope that LION provides a powerful tool for artists working with 3D shapes due to its high-quality generation, flexibility, and surface reconstruction. Project page and code: https://nv-tlabs.github.io/LION.

研究动机与目标

  • 旨在开发高质量、适用于艺术家和设计师的灵活3D形状生成器。
  • 利用带潜在扩散模型的分层 VAE 来建模全局形状和点级细节。
  • 实现多模态和条件性3D生成(如体素引导、文本/图像驱动)而无需重新训练扩散模型。
  • 通过与现代表面重建技术整合,提供网格就绪输出。
  • 在 ShapeNet 基准上展示最先进性能,并扩展到多类、多类别数据。

提出的方法

  • 用全局潜在 z0 和潜在点云 h0 ∈ R^{(3+Dh)×N} 的分层 VAE 将3D形状建模为点云 x ∈ R^{3×N}。
  • 在潜在空间中训练两个潜在扩散模型:一个针对 z0(全局形状),一个对 h0(潜在点)的条件模型。
  • 第一阶段:使用基于 ELBO 的目标及高斯先验训练编码器/解码器;第二阶段:冻结 VAE,并通过分数匹配目标(L_SM^z、L_SM^h)训练潜在 DDMs。
  • 使用 Point-Voxel CNNs(PVCNNs)作为编码器/解码器,并使用混合分数参数化来将潜在分布向高斯先验建模。
  • 在潜在空间实现扩散-去噪以控制细节水平(diffuse-denoise),并结合基于 SAP 的表面重建以生成平滑网格。
  • 允许对编码器进行微调以实现体素条件合成和多模态去噪,而不重新训练潜在 DDMs,并通过概率流 ODEs 支持形状插值。

实验结果

研究问题

  • RQ1全局形状与潜在点空间的分层 VAE 结合潜在扩散,是否能在3D形状合成上达到最先端?
  • RQ2相较于对原始点云 DDM,潜在空间扩散是否在多模态、体素引导和网格化生成方面提供更好的表达力和灵活性?
  • RQ3LION 在无需条件化的情况下,如何扩展到多类和高度多模态的 ShapeNet 数据?
  • RQ4LION 是否能与表面重建有效集成,输出适合艺术家的平滑网格?
  • RQ5潜在扩散在多大程度上能在不重新训练扩散模型的情况下实现受控变化和去噪任务(多模态去噪、插值)?

主要发现

模型飞机 CD飞机 EMD椅子 CD椅子 EMD汽车 CD汽车 EMD
IM-GAN79.7077.8557.0958.2088.9284.58
DPM83.0496.0461.9674.9677.3087.12
PVD66.4656.0661.8957.9064.4955.74
LION (ours)53.4753.8452.0748.6754.8150.53
  • LION 在 ShapeNet 基准上达到最先进的生成性能,在多个指标上超过若干基线(PVD、DPM)。
  • 两阶段训练(VAE 加潜在 DDM)和分层潜在空间比对原始点云的扩散在表达力和采样质量上更好。
  • 无条件的多类别 LION 模型(13 类和 55 类)在不进行条件化的情况下生成多样、合理的形状,展示强烈模态覆盖。
  • 将 LION 与 Shape As Points(SAP)耦合实现平滑网格化,在潜在空间的扩散去噪允许对细节进行受控变化,同时保持形状。
  • 通过微调编码器以实现体素条件合成和多模态去噪,同时固定潜在 DDMs,支持交互式编辑和改进。
  • 表格和定性结果显示 LION 在 CD/EMD 指标上相对于基线在飞机、椅子、汽车等类别的优势(表 3:ShapeNet-vol)。
  • 通过 SAP 生成的网格输出看起来平滑且语义连贯,展示对艺术家的实用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。