QUICK REVIEW

[論文レビュー] Scalable 3D Captioning with Pretrained Models

Tiange Luo, Chris Rockwell|arXiv (Cornell University)|Jun 12, 2023

Multimodal Machine Learning Applications被引用数 20

ひとこと要約

Cap3D は事前学習済みの画像キャプショニング、画像とテキストの整合、LLM を用いて多視点レンダリングを統合することで、3Dオブジェクトの記述キャプションを自動生成します。これにより、スケーラブルな 3D-テキストデータと競争力のある text-to-3D パフォーマンスを実現します。

ABSTRACT

We introduce Cap3D, an automatic approach for generating descriptive text for 3D objects. This approach utilizes pretrained models from image captioning, image-text alignment, and LLM to consolidate captions from multiple views of a 3D asset, completely side-stepping the time-consuming and costly process of manual annotation. We apply Cap3D to the recently introduced large-scale 3D dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted using 41k human annotations from the same dataset, demonstrates that Cap3D surpasses human-authored descriptions in terms of quality, cost, and speed. Through effective prompt engineering, Cap3D rivals human performance in generating geometric descriptions on 17k collected annotations from the ABO dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions, and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E, and DreamFusion.

研究の動機と目的

大規模な画像-テキストモデルを活用して、高品質な3Dキャプションの不足とコストを解消する。
3D資産の正確な多視点キャプションを生成するスケーラブルなパイプラインを作成する。
Objaverse で Cap3D を評価し、大規模な3D-テキストデータセットを作成し、人間のキャプションと比較する。
ABO を用いた幾何キャプション能力を調査し、プロンプトベースの QA の改善を探る。

提案手法

Blender を用いて各3Dオブジェクトの複数の2Dビューをレンダリングする（M=8ビュー）。
BLIP2 画像キャプショニングでビューごとに N=5 のキャプションを生成する。
CLIP の画像-テキストアライメントを用いてキャプションをフィルタリングし、ビューとキャプションのペアを選択する。
選択したビューキャプションを統合して、GPT-4 を用いて要約・情報を統合し最終キャプションを作成する。
必要に応じて、細かな幾何を強調する2段階の QA プロンプトを適用する（Cap3D QA）。
分配不可な資産（顔画像/NSFW）を除外し、言語フィルタリングを適用してデータセットを倫理的にフィルタリングする。

Figure 1: Cap3D provides detailed descriptions of 3D objects by leveraging pretrained models in captioning, alignment, and LLM to consolidate multi-view information. Two views of 3D objects are shown here, Cap3D uses eight. Additional examples are available in Appendix B .

実験結果

リサーチクエスチョン

RQ1Cap3D は manual annotation なしで、大規模に高品質な多視点キャプションを生成できるか？
RQ2ビュー基盤キャプションをLLMで統合することは、単一ビューのキャプションと比べて詳細さと正確さの点でどのように異なるか？
RQ3キャプション品質、コスト、スピードとクラウドソーシングによる3Dアノテーションとのトレードオフは？
RQ4Cap3D のキャプションは、人間のキャプションと比較して、下流の text-to-3D モデルのファインチューニングをどれだけサポートできるか？
RQ5QA を用いた prompting は ABO ライクデータセットで幾何学的詳細を改善するか？

主な発見

Cap3D のキャプションは Objaverse において品質・コスト・スピードの点でクラウドソースのキャプションより優れている（A/B テストで人間は Cap3D を約52%対38%の好み、Cap3D は人間の約8.35ドル対1,000キャプションあたり約87.18ドル、Cap3D は1日あたり約65k オブジェクト、人間は約1.4k）。
CLIP フィルタリング（Cap3D）の使用により誤ったディテールを減らし、トークン使用量を削減し、コストを $15.33 から $4.18 に削減。
GPT-4 ベースの統合により、ビュー間の統合は単一ビュー手法よりも豊かで一貫したオブジェクト記述を得られる。
Cap3D のキャプションで最先端の text-to-3D モデル（Point·E, Shap·E）をファインチューニングすると、複数の CLIP ベース指標と Objaverse データの FID が改善され、事前学習済みのベースラインを上回ることが多い。
Cap3D QA プロンプトは ABO データで幾何に焦点を当てたキャプションを可能にし、人間レベルの詳細に迫り、標準的な自動キャプションを上回る。
Cap3D 生成キャプションは text-to-3D モデルのスケーラブルでデータ効率のよいファインチューニングを可能にし、Objaverse で大規模な3D-テキストデータセット（660k ペア）を確立する。

Figure 2: Overview of Cap3D . Left to Right: (1) Render 3D objects from $M=8$ camera angles to capture object details (2) Generate $N=5$ image captions per rendered image using BLIP2; (3) Select one caption for each image based on its similarity to the image encoding using CLIP; (4) Use GPT4 to cons

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。