QUICK REVIEW

[논문 리뷰] 3D-GPT: Procedural 3D Modeling with Large Language Models

Chunyi Sun, Junlin Han|arXiv (Cornell University)|2023. 10. 19.

Human Motion and Animation인용 수 12

한 줄 요약

3D-GPT는 자연어 지시를 Blender의 절차적 생성을 구동하는 Python 스크립트로 번역하기 위해 세 에이전트로 구성된 LLM 프레임워크를 사용하여 모델 학습 없이도 지시 기반의 3D 콘텐츠 생성 및 편집을 가능하게 한다.

ABSTRACT

In the pursuit of efficient automated content creation, procedural generation, leveraging modifiable parameters and rule-based systems, emerges as a promising approach. Nonetheless, it could be a demanding endeavor, given its intricate nature necessitating a deep understanding of rules, algorithms, and parameters. To reduce workload, we introduce 3D-GPT, a framework utilizing large language models~(LLMs) for instruction-driven 3D modeling. 3D-GPT positions LLMs as proficient problem solvers, dissecting the procedural 3D modeling tasks into accessible segments and appointing the apt agent for each task. 3D-GPT integrates three core agents: the task dispatch agent, the conceptualization agent, and the modeling agent. They collaboratively achieve two objectives. First, it enhances concise initial scene descriptions, evolving them into detailed forms while dynamically adapting the text based on subsequent instructions. Second, it integrates procedural generation, extracting parameter values from enriched text to effortlessly interface with 3D software for asset creation. Our empirical investigations confirm that 3D-GPT not only interprets and executes instructions, delivering reliable results but also collaborates effectively with human designers. Furthermore, it seamlessly integrates with Blender, unlocking expanded manipulation possibilities. Our work highlights the potential of LLMs in 3D modeling, offering a basic framework for future advancements in scene generation and animation.

연구 동기 및 목표

LLM이 다중 에이전트 시스템을 사용하여 3D 모델링 작업을 관리 가능한 하위 작업으로 분해하는 방법을 시연한다.
절차적 생성 및 파라미터 추출을 통해 지시 기반의 3D 콘텐츠 합성을 가능하게 한다.
LLM이 Blender와의 인터페이스를 위한 Python 스크립트를 생성하여 자산 생성 및 편집에 활용될 수 있음을 보여준다.
일관된 3D 신(Scene)을 생성하기 위한 LLM과 인간 디자이너 간의 협업을 평가한다.

제안 방법

계획 수립, 설명 강화, 파라미터 추정을 처리하기 위해 작업 분배 에이전트, 개념화 에이전트, 모델링 에이전트의 세 에이전트 시스템을 도입한다.
LLMs가 Blender API를 호출할 수 있도록 함수 문서, 읽기 쉬운 코드, 필요한 정보 및 사용 예제를 포함한 절차적 생성 라이브러리(Infinigen)를 준비한다.
각 명령에 필요한 함수를 선택하도록 작업 분배 에이전트를 두고; 개념화 에이전트가 필요한 매개변수로 설명을 보강하며; 모델링 에이전트가 매개변수를 추론하고 Blender 함수를 호출하는 Python 코드를 생성한다.
이전 수정의 기억(memory)을 활성화하여 하위 순서의 명령 편집과 일관된 씬의 변화를 지원한다.
실제 3D 소프트웨어의 유연성을 활용하기 위해 직접적인 3D 출력 대신 Python 코드를 선택적으로 생성한다.
실제 메시와 레이 트레이스 비주얼을 보장하기 위해 Blender에서 직접 렌더링한다.

실험 결과

연구 질문

RQ1다중 에이전트 LLM 시스템이 자연어 지시를 해석하여 Blender에서 절차적 3D 생성을 구동할 수 있는가?
RQ2개념화 모듈과 작업 분배 모듈이 정합성, 파라미터 다양성 및 3D 생성 작업의 성공률을 향상시키는가?
RQ3강화된 텍스트에서 기능적 매개변수를 추출하여 Python 스크립트를 통해 Blender를 제어하는 것이 가능한가?
RQ4시스템이 하위 순서 명령 및 이전 편집의 기억(memory)을 얼마나 잘 지원하는가?
RQ5LLM 기반 3D 모델링의 한계와 향후 개선 방향은 무엇인가?

주요 결과

실험	CLIP 점수	실패율	매개변수 다양성
w/o TDA	22.79	3.6%	6.32
Ours (with TDA)	29.16	0.8%	7.34
w/o CA	21.51	3.6%	6.32
Ours (with CA)	30.30	0.8%	7.34

3D-GPT 프레임워크는 초기 및 이후의 텍스트 지시에 맞춰 Blender로 제어된 3D 콘텐츠를 생성할 수 있다.
틀 분해 연구에서 Task Dispatch Agent를 제거하면 CLIP 정렬이 감소하고 실패가 증가하여 지시 흐름 관리에서의 역할을 확인한다.
개념화 에이전트를 제거하면 CLIP 점수와 매개변수 다양성이 감소하고 실패율이 증가하여 매개변수 추론과 상세 설명에 대한 중요성을 강조한다.
시스템은 대형 씬 생성과 미세한 객체 제어(예: 꽃)에 대해 형태, 색상 및 외관에 대한 정확한 매개변수 추론으로 지원한다.
메모리와 함께 하는 하위 순서 지시 편집은 편집 간 일관성을 향상시키고 제어 가능한 편집을 위한 추가 네트워크를 피한다.
작업 흐름은 Blender에서 직접 렌더링할 수 있어 실제 레이 트레이싱 및 3D 일관성을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.