QUICK REVIEW

[論文レビュー] LION: Latent Point Diffusion Models for 3D Shape Generation

Xiaohui Zeng, Arash Vahdat|arXiv (Cornell University)|Oct 12, 2022

3D Shape Modeling and Analysis被引用数 189

ひとこと要約

LION は、2 段階の VAE と潜在点およびグローバル形状の潜在変数を用いた階層型潜在拡散フレームワークを導入し、ShapeNet ベンチマークで最先端の結果を達成するとともに、マルチモーダルデノイズ、ボクセル条件付き合成、メッシュ再構成などの柔軟なタスクを実現します。

ABSTRACT

Denoising diffusion models (DDMs) have shown promising results in 3D point cloud synthesis. To advance 3D DDMs and make them useful for digital artists, we require (i) high generation quality, (ii) flexibility for manipulation and applications such as conditional synthesis and shape interpolation, and (iii) the ability to output smooth surfaces or meshes. To this end, we introduce the hierarchical Latent Point Diffusion Model (LION) for 3D shape generation. LION is set up as a variational autoencoder (VAE) with a hierarchical latent space that combines a global shape latent representation with a point-structured latent space. For generation, we train two hierarchical DDMs in these latent spaces. The hierarchical VAE approach boosts performance compared to DDMs that operate on point clouds directly, while the point-structured latents are still ideally suited for DDM-based modeling. Experimentally, LION achieves state-of-the-art generation performance on multiple ShapeNet benchmarks. Furthermore, our VAE framework allows us to easily use LION for different relevant tasks: LION excels at multimodal shape denoising and voxel-conditioned synthesis, and it can be adapted for text- and image-driven 3D generation. We also demonstrate shape autoencoding and latent shape interpolation, and we augment LION with modern surface reconstruction techniques to generate smooth 3D meshes. We hope that LION provides a powerful tool for artists working with 3D shapes due to its high-quality generation, flexibility, and surface reconstruction. Project page and code: https://nv-tlabs.github.io/LION.

研究の動機と目的

アーティストやデザイナーに適した高品質で柔軟な3D形状生成器の開発を目指す。
グローバル形状と点レベルの詳細をモデル化するために、潜在拡散モデルを備えた階層型VAEを活用する。
拡散モデルの再訓練なしで、ボクセル誘導・テキスト/画像駆動などのマルチモーダル・条件付き3D生成を実現する。
現代的な表面再構成技術と統合してメッシュ対応の出力を提供する。
ShapeNet ベンチマークで最先端の性能を実証し、マルチクラス・マルチカテゴリーのデータへの拡張性を示す。

提案手法

3D形状を点群 x ∈ R^{3×N} として、グローバル潜在 z0 および潜在点雲 h0 ∈ R^{(3+Dh)×N} を用いた階層型VAEでモデル化する。
潜在空間内に2つの潜在拡散モデルを訓練する。1つは z0（グローバル形状）用、もう1つは z0 に条件付けられた h0（潜在点）用。
第1段階：ELBOベースの目的関数とガウス事前分布を用いてエンコーダ/デコーダを訓練；第2段階：VAEを凍結し、潜在DDMをスコアマッチング目的関数（L_SM^z, L_SM^h）で訓練。
エンコーダ/デコーダにはPoint-Voxel CNNs (PVCNNs) を用い、潜在分布をガウス事前分布へ向けてモデリングする混合スコアパラメータ化を採用。
潜在空間での拡散デノイズ機能を有効にして detail レベルを制御（diffuse-denoise）し、SAPベースの表面再構成と組み合わせて滑らかなメッシュを生成する。
潜在DDMを再訓練せずに、ボクセル条件付き合成とマルチモーダルデノイズ除去のためのエンコーダの微調整を可能にし、確率流ODEを介した形状補間をサポートする。

実験結果

リサーチクエスチョン

RQ1グローバル形状と潜在点空間の両方で潜在拡散を用いた階層型VAEが、最先端の3D形状合成を達成できるのか？
RQ2潜在空間拡散は、点群DDMと比べてマルチモーダル・ボクセル誘導・メッシュ対応生成における表現力と柔軟性を向上させるのか？
RQ3条件付けなしで、LION は多クラスかつ高度にマルモーダルな ShapeNet データへどれだけスケールできるのか？
RQ4LION はアーティスト向けの滑らかなメッシュを出力できるよう、表面再構成と効果的に統合できるか？
RQ5潜在拡散は、拡散モデルを再訓練せずに、マルチモーダルデノイズ除去や補間といった制御された変化・デノイズタスクをどの程度実現できるか？

主な発見

Model	Airplane CD	Airplane EMD	Chair CD	Chair EMD	Car CD	Car EMD
IM-GAN	79.70	77.85	57.09	58.20	88.92	84.58
DPM	83.04	96.04	61.96	74.96	77.30	87.12
PVD	66.46	56.06	61.89	57.90	64.49	55.74
LION (ours)	53.47	53.84	52.07	48.67	54.81	50.53

LION は ShapeNet ベンチマークで最先端の生成性能を達成し、複数の指標で複数のベースライン（PVD、DPM）を上回る。
2 段階の訓練（VAE と潜在DDM）と階層的潜在空間は、原点となる点群上の拡散よりも高い表現力とより良いサンプリング品質をもたらす。
無条件のマルチクラスLIONモデル（13 クラスおよび 55 クラス）は、条件付けなしで多様で妥当な形状を生成し、モードカバレッジが強いことを示す。
LION を Shape As Points (SAP) と組み合わせると滑らかなメッシュ化が可能になり、潜在空間の diffuse-denoise により詳細の制御を維持しつつ形状を保つことができる。
ボクセル誘導合成とマルチモーダルデノイズは、エンコーダを微調整し潜在DDMを固定したまま実現可能で、対話的な編集と洗練を可能にする。
表と定性的結果は、飛行機、椅子、車の CD/EMD 指標で baselines より LION が優れていることを示す（Table 3: ShapeNet-vol）。
SAP によって得られるメッシュ出力は滑らかで意味的に整合しており、アーティストにとって実務的な有用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。