QUICK REVIEW

[論文レビュー] Structured 3D Latents for Scalable and Versatile 3D Generation

Jianfeng Xiang, Zhiqing Lv|arXiv (Cornell University)|Dec 2, 2024

Computer Graphics and Visualization Techniques被引用数 5

ひとこと要約

Structured LATents (SLat) を導入して 3D アセットを疎にエンコードし、密集したマルチビュー特徴を統合することで、Radiance Fields、3D Gaussians、メッシュへとデコード可能な、 rectified flow transformers による再構成を実現します。テキスト/画像条件生成と柔軟な編集のため、最大 2B パラメータおよび約 50 万オブジェクトで訓練。

ABSTRACT

We introduce a novel 3D generation method for versatile and high-quality 3D asset creation. The cornerstone is a unified Structured LATent (SLAT) representation which allows decoding to different output formats, such as Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a sparsely-populated 3D grid with dense multiview visual features extracted from a powerful vision foundation model, comprehensively capturing both structural (geometry) and textural (appearance) information while maintaining flexibility during decoding. We employ rectified flow transformers tailored for SLAT as our 3D generation models and train models with up to 2 billion parameters on a large 3D asset dataset of 500K diverse objects. Our model generates high-quality results with text or image conditions, significantly surpassing existing methods, including recent ones at similar scales. We showcase flexible output format selection and local 3D editing capabilities which were not offered by previous models. Code, model, and data will be released.

研究の動機と目的

高品質な 3D 生成を表現形式を超えて統一的かつ多用途な潜在空間で実現すること。
視覚基盤モデルからの密集したマルチビュー視覚特徴と疎な 3D 構造を融合して、ジオメトリと外観をエンコードすること。
SLat から複数の 3D 表現形式へ高忠実度・編集性を持ってデコード可能にすること。
訓練時の 3D フィットを不要とし、チューニング不要の局所的な 3D 編集をサポートすること。

提案手法

SLat を、表面と交差するアクティブ体素に付随する疎な局所潜在の集合として定義すること。
ランダムビューと DINOv2 エンコーダを介して密集したマルチビュー特徴を集約し、voxel 特徴 f_i を形成すること。
トランスフォーマーボーンを備えた疎な VAE を用いて f を z に符号化し、複数の 3D 表現へデコードすること。
表現特有の損失（L1、D-SSIM、LPIPS など）を用いた 3D ガウシアン、Radiance Fields、メッシュのデコーダを提供すること。
rectified flow transformers を用いた 2 段階生成：まず疎な構造 p_i を生成し、次に局所潜在 z_i を生成すること。
最大 2B パラメータで約 50 万オブジェクトを訓練し、CFG とクロスアテンションによるテキストまたは画像条件を使用すること。 conditioning には CLIP/DINOv2 を活用すること。

実験結果

リサーチクエスチョン

RQ1テキストまたは画像から Radiance Fields、3D Gaussians、メッシュの複数の出力形式に対して、統一された構造化潜在空間が高品質な 3D 生成をサポートできるか？
RQ2疎な 3D 構造と密集したマルチビュー特徴を統合することで、3D フィットを要さずにスケーラブルで高忠実なジオメトリと外観のモデリングが可能か？
RQ3rectified flow transformers は 3D 設定において拡散ベースのベースラインより生成品質とプロンプト整合性を向上させるか？
RQ4チューニング不要の地域編集とグローバルな外観変化をこの枠組みで実現できるか？

主な発見

SLat は多様な表現形式に対して高品質な 3D 再構築を可能にし、外観とジオメトリの指標でベースラインを上回る。
rectified flow transformers を用いた 2 段階生成は、拡散ベースのベースラインに対してプロンプト整合性と全体的な品質を改善する。
モデルサイズを XL（2B パラメータ）まで拡大すると、Toys4k の CLIP 整合性および FD/DINOV2 指標で一貫した向上を得られる。
構造と潜在の分離を活用した編集戦略により、再訓練なしで領域別編集と変化を実現できる。
本アプローチは Radiance Fields、3D Gaussians、メッシュを含む出力形式をサポートし、デコード結果がプロンプトに近く一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。