Skip to main content
QUICK REVIEW

[논문 리뷰] LION: Latent Point Diffusion Models for 3D Shape Generation

Xiaohui Zeng, Arash Vahdat|arXiv (Cornell University)|2022. 10. 12.
3D Shape Modeling and Analysis인용 수 189
한 줄 요약

LION은 2단계 VAE와 잠재 점 및 글로벌 형상 잠재변수를 사용하는 계층적 잠재 확산 프레임워크를 도입하여 ShapeNet 벤치마크에서 최첨단 결과를 달성하고 다중 모달 노이즈 제거, 보셀 조건화 합성, 메쉬 재구성 같은 유연한 작업을 가능하게 합니다.

ABSTRACT

Denoising diffusion models (DDMs) have shown promising results in 3D point cloud synthesis. To advance 3D DDMs and make them useful for digital artists, we require (i) high generation quality, (ii) flexibility for manipulation and applications such as conditional synthesis and shape interpolation, and (iii) the ability to output smooth surfaces or meshes. To this end, we introduce the hierarchical Latent Point Diffusion Model (LION) for 3D shape generation. LION is set up as a variational autoencoder (VAE) with a hierarchical latent space that combines a global shape latent representation with a point-structured latent space. For generation, we train two hierarchical DDMs in these latent spaces. The hierarchical VAE approach boosts performance compared to DDMs that operate on point clouds directly, while the point-structured latents are still ideally suited for DDM-based modeling. Experimentally, LION achieves state-of-the-art generation performance on multiple ShapeNet benchmarks. Furthermore, our VAE framework allows us to easily use LION for different relevant tasks: LION excels at multimodal shape denoising and voxel-conditioned synthesis, and it can be adapted for text- and image-driven 3D generation. We also demonstrate shape autoencoding and latent shape interpolation, and we augment LION with modern surface reconstruction techniques to generate smooth 3D meshes. We hope that LION provides a powerful tool for artists working with 3D shapes due to its high-quality generation, flexibility, and surface reconstruction. Project page and code: https://nv-tlabs.github.io/LION.

연구 동기 및 목표

  • 아티스트와 디자이너들이 사용할 수 있는 고품질의 융통성 있는 3D 형상 생성기 개발.
  • 잠재 확산 모델을 활용한 계층 VAE로 글로벌 형상과 점 수준 디테일 모델링.
  • 재훈련 없이 다중 모달 및 조건부 3D 생성 가능(예: 보셀 주도, 텍스트/이미지 주도).
  • 현대 표면 재구성 기법과의 통합을 통해 메쉬 준비 가능 outputs 제공.
  • ShapeNet 벤치마크에서 최첨단 성능 입증 및 다중 클래스/다카테고리 데이터로의 확장성.

제안 방법

  • 글로벌 잠재 z0와 잠재 점 구름 h0 ∈ R^{(3+Dh)×N}를 갖는 계층 VAE로 점 구름 x ∈ R^{3×N}로 3D 형상 모델링.
  • 잠재 공간에서 두 개의 잠재 확산 모델을 학습: 하나는 z0(글로벌 형상)용, 하나는 z0에 조건화된 h0용(잠재 점).
  • 1단계: ELBO 기반 목표 및 가우시안 사전분포로 인코더/디코더 학습; 2단계: VAE를 동결하고 점수 매칭 목표(L_SM^z, L_SM^h)로 잠재 DDM 학습.
  • 인코더/디코더에 Point-Voxel CNNs(PVCNNs) 사용 및 잠재 분포를 가우시안 사전으로 향하도록 혼합 점수 매개화.
  • 잠재 공간에서의 확산-노이즈 제거를 통해 디테일 수준 제어(diffuse-denoise)하고 SAP 기반 표면 재구성과 결합해 매끄러운 메쉬 생성.
  • 잠재 DDM를 재훈련 없이 보셀 조건 합성 및 다중 모달 노이즈 제거를 가능하게 하기 위해 인코더 미세조정 가능, 형상 보간은 확률 흐름 ODE로 지원.

실험 결과

연구 질문

  • RQ1글로벌 형상과 잠재 점 공간에서의 잠재 확산을 가진 계층 VAE가 3D 형상 합성에서 최첨단 성능을 달성할 수 있는가?
  • RQ2잠재 공간 확산이 포인트 클라우드 DDM과 비교해 다중 모달, 보셀 주도, 메쉬 가능 생성에 대해 더 나은 표현력과 유연성을 제공하는가?
  • RQ3조건화 없이도 다중 클래스 및 매우 다모달 ShapeNet 데이터에 LION이 얼마나 잘 확장되는가?
  • RQ4표면 재구성과 효과적으로 통합되어 예술가가 사용할 수 있는 매끄러운 메쉬를 출력할 수 있는가?
  • RQ5잠재 확산이 재훈련 없이 제어된 변variation 및 노이즈 제거 작업(다중 모달 노이즈 제거, 보간)을 얼마나 가능하게 하는가?

주요 결과

모델비행기 CD비행기 EMD의자 CD의자 EMD자동차 CD자동차 EMD
IM-GAN79.7077.8557.0958.2088.9284.58
DPM83.0496.0461.9674.9677.3087.12
PVD66.4656.0661.8957.9064.4955.74
LION (ours)53.4753.8452.0748.6754.8150.53
  • LION은 ShapeNet 벤치마크에서 최첨단 생성 성능을 달성하며, 다양한 지표에서 여러 베이스라인(PVD, DPM)을 능가한다.
  • 두 단계 훈련(VAE 및 잠재 DDM)과 계층적 잠재 공간은 원시 점 구름의 확산보다 표현력이 높고 샘플링 품질이 좋다.
  • 무조건 다중 클래스 LION 모델(13개 및 55개 클래스)은 조건화 없이도 다양하고 그럴듯한 형상을 생성, 모드 커버리지가 강함을 보여준다.
  • LION을 Shape As Points(SAP)와 결합하면 매끄러운 메싱이 가능하고, 잠재 공간의 확산-노이즈 제거로 디테일의 제어를 하면서도 형상을 보존한다.
  • 보셀 주도 합성 및 다중 모달 노이즈 제거는 인코더를 미세조정하고 잠재 DDM은 고정시켜 가능하며 인터랙티브 편집 및 정제를 가능하게 한다.
  • 표와 정성적 결과는 항공기, 의자, 자동차에서 CD/EMD 지표에서 LION이 베이스라인보다 우수함을 보여준다(표 3: ShapeNet-vol).
  • SAP를 통해 생성된 메시는 매끄럽고 의미적으로 일관되어 예술가들에게 실용적 활용을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.