[論文レビュー] AutoDecoding Latent 3D Diffusion Models
この論文は、潜在空間での潜在拡散を用いた3Dオートデコーダを導入し、2D観測からのビュー一貫性のある3Dコンテンツを生成する。剛体および関節付きオブジェクトを、完全な3D監督なしで扱う。
We present a novel approach to the generation of static and articulated 3D assets that has a 3D autodecoder at its core. The 3D autodecoder framework embeds properties learned from the target dataset in the latent space, which can then be decoded into a volumetric representation for rendering view-consistent appearance and geometry. We then identify the appropriate intermediate volumetric latent space, and introduce robust normalization and de-normalization operations to learn a 3D diffusion from 2D images or monocular videos of rigid or articulated objects. Our approach is flexible enough to use either existing camera supervision or no camera information at all -- instead efficiently learning it during training. Our evaluations demonstrate that our generation results outperform state-of-the-art alternatives on various benchmark datasets and metrics, including multi-view image datasets of synthetic objects, real in-the-wild videos of moving people, and a large-scale, real video dataset of static objects.
研究の動機と目的
- 2D supervisiónからの3Dレンダリングのためにデータセット全体のオブジェクト特性を潜在空間に埋め込む体積ベースのオートデコーダを学習する。
- 中間の体積的潜在空間を識別し、拡散訓練を可能にするために正規化/非正規化を行う。
- カメラ情報の有無を問わず剛体および関節付きオブジェクトをサポートし、訓練中にカメラ要因を学習する。
- 大規模なマルチカテゴリデータセットや実世界のビデオデータセットへスケールする。
- 潜在3D空間での拡散を効率化し、syntheticおよびrealデータセットで最先端の結果を示す。
提案手法
- 1Dオブジェクト埋め込みを低解像度の潜在的3D体積(V^Density, V^RGB)へ写像し、レンダリング用のボクセルグリッドへと段階的にアップスケールする体積的オートデコーダGを訓練する。
- 3D監督なしでジオメトリと外観を学習するため、2D画像からのレンダリング監督を、ピラミッド型感覚損失と前景マスクを用いて導入する。
- GをG1(潜在3D特徴体積)とG2(輻射量子体積)に分割する。第2段階ではGを固定し、G1が生成する潜在空間内で3D拡散モデルを訓練する。
- 拡散訓練を扱うため、長尾の潜在特徴分布に対して特徴中央値と正規化四分位範囲に基づく頑健な正規化を適用する。
- 固定EDM超パラメータで拡散サンプリングを採用し、テキスト条件生成のための分類子なしガイダンスを統合し、オートデコーダ空間で潜在拡散を実施する。
- 非剛体オブジェクトは、学習された体積スキニング(LBS)で剛体成分に分解し、 posesを段階的に洗練させることで扱う。
実験結果
リサーチクエスチョン
- RQ12D観測から学習された3Dオートデコーダは、拡散ベースの3D生成に適したコンパクトな潜在空間を提供できるか?
- RQ2中間の体積的潜在空間を拡散をサポートするためにどのように正規化すべきか?
- RQ3剛体および関節付きオブジェクトの双方を扱い、外部 supervisionなしで訓練中にカメラパラメータを学習できるか?
- RQ4大規模な実世界のマルチカテゴリデータセットとビデオデータに方法をスケールできるか?
- RQ5拡散解像度、サンプリングステップ、推論時間のトレードオフは高品質な3D生成にどのように影響するか?
主な発見
| Method | FID ↓ | KID ↓ | FID ↓ | KID ↓ | Model Variant | PSNR ↑ | LPIPS ↓ | Direct Latent Sampling [63] | 69.21 | 73.74 | 97.51 | 69.22 | 72.76 | 53.68 | Ours - 16 Steps | 48.01 | 49.49 | 62.21 | 39.94 | 47.49 | 32.44 | Ours - 32 Steps | 49.74 | 46.2 | 51.26 | 28.45 | 43.68 | 31.7 | Ours - 64 Steps | 50.27 | 47.72 | 43.85 | 23.91 | 40.49 | 29.37 | |
|---|---|---|---|---|---|---|
| π-GAN [5] | 52.71 | 13.64 | 41.67 | 13.81 | ||
| EG3D [6] | 16.54 | 8.412 | 31.18 | 11.67 | ||
| DiffRF [45] | 15.95 | 7.935 | 27.06 | 10.03 | ||
| Ours | 11.28 | 4.714 | 18.44 | 6.854 | ||
| Table: PSNR/LPIPS ablation (Ours) | 27.719 | 6.255 | - | - | ||
| - Multi-Frame Training | 27.176 | 6.855 | - | - | ||
| - Self-Attention | 27.335 | 6.738 | - | - | ||
| - Increased Depth | 27.24 | 6.924 | - | - | ||
| - Embedding Length (1024→64) | 25.985 | 8.332 | - | - | ||
| CelebV-Text ( Large ) | 69.21 | 73.74 | 97.51 | 69.22 | 72.76 | 53.68 |
| MVImgNet ( Large ) | - | - | - | - | - | - |
| Objaverse ( Large ) | - | - | - | - | - | - |
- 本手法はsyntheticのマルチビュー用データセット(PhotoShape Chairs, ABO Tables)で最先端を上回り、FID/KIDの改善を達成(例:ChairsとABO TablesでのOurs: FID 11.28, KID 4.714、18.44/6.854など)。
- 大規模データセットでは、8^3の潜在解像度と最大64ステップの潜在拡散で高品質を達成し、サンプルあたり約8秒程度(16–64ステップでのゲインは様々)。
- 埋め込み長とマルチフレーム訓練の増加、自己注意機構がデータセット依存の利点をもたらすことを示す;中~高い潜在解像度での拡散が最良の結果をもたらす。
- 拡散を用いずに直接潜在サンプリングを行う場合、特に大規模スケールでは拡散ベースのサンプリングより劣る(例:CelebVのFID 69.21に対し、16–64ステップでの拡散を用いた ours)。
- テキストプロンプトによる条件付き生成(MVImgNet, Objaverse)は、キャプションとの整合性の都合で一部ディテールが欠如する可能性があるが、適切な幾何と深度を生じさせる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。