QUICK REVIEW

[論文レビュー] 3D-GPT: Procedural 3D Modeling with Large Language Models

Chunyi Sun, Junlin Han|arXiv (Cornell University)|Oct 19, 2023

Human Motion and Animation被引用数 12

ひとこと要約

3D-GPT は 3 つのエージェントからなる LLM フレームワークを用いて、自然言語指示を Blender の手続き的生成を駆動する Python スクリプトへ翻訳し、モデル訓練を要さず指示に基づく 3D コンテンツや編集を可能にします。

ABSTRACT

In the pursuit of efficient automated content creation, procedural generation, leveraging modifiable parameters and rule-based systems, emerges as a promising approach. Nonetheless, it could be a demanding endeavor, given its intricate nature necessitating a deep understanding of rules, algorithms, and parameters. To reduce workload, we introduce 3D-GPT, a framework utilizing large language models~(LLMs) for instruction-driven 3D modeling. 3D-GPT positions LLMs as proficient problem solvers, dissecting the procedural 3D modeling tasks into accessible segments and appointing the apt agent for each task. 3D-GPT integrates three core agents: the task dispatch agent, the conceptualization agent, and the modeling agent. They collaboratively achieve two objectives. First, it enhances concise initial scene descriptions, evolving them into detailed forms while dynamically adapting the text based on subsequent instructions. Second, it integrates procedural generation, extracting parameter values from enriched text to effortlessly interface with 3D software for asset creation. Our empirical investigations confirm that 3D-GPT not only interprets and executes instructions, delivering reliable results but also collaborates effectively with human designers. Furthermore, it seamlessly integrates with Blender, unlocking expanded manipulation possibilities. Our work highlights the potential of LLMs in 3D modeling, offering a basic framework for future advancements in scene generation and animation.

研究の動機と目的

LLMs が多エージェントシステムを用いて 3D モデリングのタスクを管理可能なサブタスクに分解できることを示す。
手続き生成とパラメータ抽出を通じて指示駆動の 3D コンテンツ合成を可能にする。
LLMs が Blender と連携する Python スクリプトを生成して資産の作成と編集を行えることを示す。
人間デザイナーと LLM の協働が一貫した 3D シーンの作成においてどの程度機能するかを評価する。

提案手法

計画、記述の強化、パラメータ推論を担当するタスクディスパッチエージェント、概念化エージェント、モデリングエージェントの三エージェント系を導入する。
関数ドキュメント、読みやすいコード、必要情報、使用例を備えた手続き生成ライブラリ（Infinigen）を準備し、LLMs が Blender API を呼び出せるようにする。
タスクディスパッチエージェントが各指示に対して必要な関数を選択し、概念化エージェントが記述を必要なパラメータで強化し、モデリングエージェントがパラメータを推論して Blender 関数を呼ぶ Python コードを生成する。
以前の修正を記憶する機能を有効化し、サブシークエンス指示の編集と一貫したシーンの進化を支援する。
実世界の 3D ソフトウェアの柔軟性を活用するため、直接の 3D 出力ではなく Python コードを生成することを任意とする。
Blender で直接結果をレンダリングして本物のメッシュとレイトレーシング視覚を確保する。

実験結果

リサーチクエスチョン

RQ1多エージェント LLM システムは自然言語指示を解釈して Blender での手続き的な 3D 生成を推進できるか？
RQ2概念化およびタスクディスパッチモジュールは、3D 生成タスクにおける整合性、パラメータの多様性、成功率を向上させるか？
RQ3充実したテキストから機能的パラメータを抽出して Python スクリプト経由で Blender を制御することは可能か？
RQ4サブシークエンス指示と以前の編集の記憶をシステムはどれほどサポートできるか？
RQ5LLM 主導の 3D モデリングを改善する制約と潜在的な方向性は何か？

主な発見

実験	CLIP スコア	失敗率	パラメータ多様性
w/o TDA	22.79	3.6%	6.32
Ours (with TDA)	29.16	0.8%	7.34
w/o CA	21.51	3.6%	6.32
Ours (with CA)	30.30	0.8%	7.34

3D-GPT フレームワークは、初期の指示とその後のテキスト指示に整合した Blender 制御の 3D コンテンツを生成できる。
アブレーション研究では、Task Dispatch Agent を除去すると CLIP アライメントが低下し、失敗率が上昇することが確認され、指示フローの管理役割を裏付ける。
概念化エージェントを除去すると CLIP スコアとパラメータ多様性が低下し、失敗率が上昇する。パラメータ推論と詳細な記述の重要性を浮き彫りにする。
大規模シーン生成と細かなオブジェクト制御（花など）を、形状、色、外観の正確なパラメータ推論でサポートする。
記憶を伴うサブシークエンス指示の編集は、編集間の整合性を高め、可制御編集のための追加ネットワークを回避する。
このワークフローは Blender で直接結果をレンダリングでき、実際のレイトレーシングと 3D 一貫性を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。