QUICK REVIEW

[論文レビュー] Objaverse-XL: A Universe of 10M+ 3D Objects

Matt Deitke, Ruoshi Liu|arXiv (Cornell University)|Jul 11, 2023

Advanced Neural Network Applications被引用数 36

ひとこと要約

Objaverse-XL は、10.2M+ の重複排除済み 3D オブジェクトを多様なソースから含むウェブスケールデータセットで、大規模な 3D 事前学習とゼロショット新規ビュー合成の改善（Zero123-XL と PixelNeRF）を可能にします。

ABSTRACT

Natural language processing and 2D vision models have attained remarkable proficiency on many tasks primarily by escalating the scale of training data. However, 3D vision tasks have not seen the same progress, in part due to the challenges of acquiring high-quality 3D data. In this work, we present Objaverse-XL, a dataset of over 10 million 3D objects. Our dataset comprises deduplicated 3D objects from a diverse set of sources, including manually designed objects, photogrammetry scans of landmarks and everyday items, and professional scans of historic and antique artifacts. Representing the largest scale and diversity in the realm of 3D datasets, Objaverse-XL enables significant new possibilities for 3D vision. Our experiments demonstrate the improvements enabled with the scale provided by Objaverse-XL. We show that by training Zero123 on novel view synthesis, utilizing over 100 million multi-view rendered images, we achieve strong zero-shot generalization abilities. We hope that releasing Objaverse-XL will enable further innovations in the field of 3D vision at scale.

研究の動機と目的

ウェブソースから大規模で多様な 3D オブジェクトコーパスを構築することで、3D ビジョンのデータ不足に対処する。
スケーラブルな 3D 学習と評価を支援するための包括的なメタデータとレンダリング由来の特徴を提供する。
最先端の 3D モデルを訓練・評価することで、規模の影響を 3D 事前学習に示す。
データ品質介入（例: NSFW フィルタリング、アライメント微調整）を評価し、それが下流の 3D タスクに与える影響を評価する。

提案手法

Objaverse-XL を構築するために、GitHub、Thingiverse、Sketchfab、Polycam、Smithsonian などのソースから 3D オブジェクトをクロールして重複排除を行う。
Blender でオブジェクトの 2D ビューをレンダリングし、メタデータ（ポリゴン/頂点数、材料、テクスチャ等）を抽出する。
複数レンダリングから CLIP ViT-L/14 の埋め込みを計算して、オブジェクトレベルのメタデータと品質代理指標を導出する。
多視点レンダリングと CLIP ベースの分類器を用いて NSFW フィルタリングを適用し、顔を検出してレンダリング品質（穴など）を評価する。
Objaverse-XL 上で Zero123-XL（視点条件付き拡散モデル）を訓練し、高品質サブセットでアライメント微調整を行いゼロショット汎化を改善する。
Objaverse-XL を大規模で訓練して、オブジェクトとシーン間の新規視点合成の汎化を評価する。

Figure 1: Objaverse-XL includes a ginormous collection of diverse 3D objects from a variety of sources. Here, we show examples of objects in Objaverse-XL rendered in a scene.

実験結果

リサーチクエスチョン

RQ110.2M の 3D オブジェクトへスケーリングは、Objaverse-1.0 など小規模データセットと比較して新規視点合成のゼロショット一般化を改善するか？
RQ2高品質なアライメントサブセットでの微調整がゼロショット視点合成性能に与える影響は？
RQ3Objaverse-XL を PixelNeRF で事前学習させると、PSNR/ShapeNet/DTU の一般化は、初期訓練（素訓練）と比較してどうなるか？
RQ4規模拡大時に観察される特性と品質上の考慮事項（NSFW、顔、レンダリングの穴）は何か？
RQ5GitHub、Thingiverse、Sketchfab、Polycam、Smithsonian などの多様なソースは、モデルの性能と一般化にどの程度寄与するか？

主な発見

データセット	3Dモデルの数
Objaverse-XL	10.2M

Zero123-XL が Objaverse-XL の訓練で、Objaverse-1.0 で訓練した場合よりもゼロショット一般化が改善され、特に人、アニメ、スケッチといった難易度の高いカテゴリで顕著な改善が見られる。
高品質の 1.3M オブジェクトサブセットでのアライメント微調整は、ゼロショット一般化に substantial gains をもたらす（表の値を参照）。
Zero123-XL の場合、ベース指標：PSNR 18.225、SSIM 0.877、LPIPS 0.088、FID 0.070；アライメント微調整後：PSNR 19.876、SSIM 0.888、LPIPS 0.075、FID 0.056。
Objaverse-XL で訓練した PixelNeRF は DTU と ShapeNet の PSNR を改善：DTU 15.32（ベース）対 17.53±0.37（Objaverse-XL 併用）、ShapeNet 22.71（ベース）対 24.22±0.55（Objaverse-XL 併用）。
Objaverse-XL は 10.2M のユニークオブジェクトをデデュプリケーション後に保持し、500k を超える GitHub リポジトリから 5.5M ファイルを正常にレンダリング（初期インデックス化 3700万件の 3D オブジェクトファイルから）している。
Objaverse-XL は、アーキテクチャを変更せずに新規ビュー合成や 3D ジェネレーションなどの 3D タスクの一般化とスケールの利点を向上させ、2D ドメインに類似した 3D ビジョンのスケーリング法則を示す。

Figure 3: Examples of 3D objects from various sources of Objaverse-XL spanning GitHub, Thingiverse, Polycam, the Smithsonian Institution, and Sketchfab. Objects from Thingiverse do not include color information, so each object’s primary color is randomized during rendering.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。