[論文レビュー] Shap-E: Generating Conditional 3D Implicit Functions
Shap-E は 3D アセットを暗黙的関数パラメータへ encode する2段階モデルを訓練し、条件付き拡散事前分布を学習して、テキストまたは画像に条件付けされた多様な 3D アセットを生成し、NeRF またはテクスチャ付きメッシュとしてレンダリングできるようにします。 Point-E と比較して収束を早め、サンプル品質は競争力があり、多重表現出力を可能にします。
We present Shap-E, a conditional generative model for 3D assets. Unlike recent work on 3D generative models which produce a single output representation, Shap-E directly generates the parameters of implicit functions that can be rendered as both textured meshes and neural radiance fields. We train Shap-E in two stages: first, we train an encoder that deterministically maps 3D assets into the parameters of an implicit function; second, we train a conditional diffusion model on outputs of the encoder. When trained on a large dataset of paired 3D and text data, our resulting models are capable of generating complex and diverse 3D assets in a matter of seconds. When compared to Point-E, an explicit generative model over point clouds, Shap-E converges faster and reaches comparable or better sample quality despite modeling a higher-dimensional, multi-representation output space. We release model weights, inference code, and samples at https://github.com/openai/shap-e.
研究の動機と目的
- 固定表現ではなく、暗黙的関数として表現された条件付き3Dアセットの生成を動機づける。
- 3Dアセットを暗黙的関数パラメータへ写像する、スケーラブルなエンコーダ-拡散フレームワークを開発する。
- テキストまたは画像で条件付けられたエンコーダ出力上の拡散事前分布を訓練し、テキストおよび画像条件付きの3D生成を可能にする。
- 暗黙的表現が、明示的な点群をベースとする比較対象より、推論が速いにもかかわらず同等またはより良いサンプル品質を達成できることを示す。
提案手法
- Dense な3D表現(点群とレンダリング済みビュー)を、NeRFとSTFの双方を担うMLPの暗黙的関数パラメータへ写像するTransformerベースのエンコーダを訓練する。
- NeRFレンダリング目的でエンコーダを事前訓練し、続いてSDFとテクスチャヘッドを追加し、蒸留で安定化させてからファインチューニングする。
- エンコーダ出力(潜在ベクトル)上の拡散事前分布を、テキストまたは画像で条件付けて訓練し、サンプリング時には分類子なしガイダンスを使用する。
- MLPのウェイト行に対応する潜在ベクトルの列を用いた潜在拡散を用い、高次元の暗黙的表現を可能にする。
- NeRFベースとSTFベースのメッシュとして、微分可能レンダリングと marching cubes により出力をレンダリングし、STF出力のためのエンドツーエンド微調整を行う。
- Point-E に類似した潜在拡散の訓練およびサンプリング戦略を採用し、条件付けのための直接 x0 予測とガイダンススケールを用いる。
実験結果
リサーチクエスチョン
- RQ1テキストまたは画像で条件付けられた拡散モデルは、暗黙的関数としてエンコードされた多様で高品質な3Dアセットを生成できるか。
- RQ2潜在拡散空間で直接暗黙的MLPウェイトを予測することは、点群のような明示的3D表現と比べて競争力のある結果をもたらすか。
- RQ3Shap-E の速度とサンプル品質は、テキストまたは画像で条件付けした場合、既存の3D生成モデル(例: Point-E)と比べてどう拡張・スケールするか。
- RQ4統一された暗黙的表現の文脈におけるNeRFレンダリングとSTF(テクスチャ/メッシュ)レンダリングのトレードオフは何か。
主な発見
| Method | ViT-B/32 | ViT-L/14 | Latency |
|---|---|---|---|
| DreamFields | 78.6% | 82.9% | ~200 V100-hr |
| CLIP-Mesh | 67.8% | 74.5% | ~17 V100-min |
| DreamFusion | 75.1% | 79.7% | ~12 V100-hr |
| Point ⋅ E (300M, text-only) | 33.6% ∗ | 35.5% ∗ | 25 V100-sec |
| Shap ⋅ E (300M, text-only) | 37.8% ∗ | 40.9% ∗ | 13 V100-sec |
| Point ⋅ E (300M) | 40.3% | 45.6% | 1.2 V100-min |
| Point ⋅ E (1B) | 41.1% | 46.8% | 1.5 V100-min |
| Shap ⋅ E (300M) | 41.1% | 46.4% | 1.0 V100-min |
| Conditioning images | 69.6% | 86.6% | - |
- Shap-E は複数の指標で Point-E に対して収束を速く、サンプル品質が同等または優れている。
- テキスト条件付きの Shap-E は、同等の Point-E モデルより CLIP ベースの指標を改善するが、後半の訓練段階で過剰適合が見られる。
- Shap-E は同じ暗黙関数表現から NeRF とテクスチャ付きメッシュの両方のレンダリングを実現する。
- 大規模データでは、Shap-E はテキストや画像プロンプトに条件付けられた多様で認識可能な3Dアセットを生成する。
- 推論待機時間は、最適化ベースの3D生成手法より大幅に低く、以前の拡散ベースの3D手法のいくつかよりも速い。
- 画像条件下では Shap-E と Point-E の共通の成功/失敗パターンが定性的に見られるが、テキスト条件では顕著な差異が現れる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。