QUICK REVIEW

[논문 리뷰] Text to Robotic Assembly of Multi Component Objects using 3D Generative AI and Vision Language Models

Kyaw, Alexander Htet, Gupta, Richa|arXiv (Cornell University)|2025. 11. 04.

Modular Robots and Swarm Intelligence인용 수 3

한 줄 요약

본 연구는 3D 생성형 AI와 비전-언어 모델을 결합해 AI가 생성한 메쉬를 미리 정의된 구조 부품과 패널 구성요소로 분해하여 로봇 조립을 가능하게 하며, 사람의 피드백이 반영되는 텍스트 기반 다부품 제작을 가능하게 한다.

ABSTRACT

Advances in 3D generative AI have enabled the creation of physical objects from text prompts, but challenges remain in creating objects involving multiple component types. We present a pipeline that integrates 3D generative AI with vision-language models (VLMs) to enable the robotic assembly of multi-component objects from natural language. Our method leverages VLMs for zero-shot, multi-modal reasoning about geometry and functionality to decompose AI-generated meshes into multi-component 3D models using predefined structural and panel components. We demonstrate that a VLM is capable of determining which mesh regions need panel components in addition to structural components, based on the object's geometry and functionality. Evaluation across test objects shows that users preferred the VLM-generated assignments 90.6% of the time, compared to 59.4% for rule-based and 2.5% for random assignment. Lastly, the system allows users to refine component assignments through conversational feedback, enabling greater human control and agency in making physical objects with generative AI and robotics.

연구 동기 및 목표

자연어 프롬프트로 다부품 물체의 물리적 제작 가능성을 촉진한다.
AI가 생성한 메쉬를 기하학적 및 기능 인식 분해로 구조 부품과 패널 구성요소로 나누는 방법을 제안한다.
객체 기능에 기반해 패널 구성요소를 할당하기 위해 제로샷 다중모달 추론을 활용한다.
작업별 특수 학습 없이 구성요소 할당을 정제하기 위한 대화형 피드백 워크플로를 제공한다.
미리 정의된 구성요소를 사용하여 텍스트 입력에서 로봇 조립까지의 엔드투엔드 통합을 시연한다.

제안 방법

Autodesk의 3D 생성 AI 모델을 사용해 텍스트 프롬프트로 AI 메쉬를 생성한다.
메쉬를 보셀화해 구조 구성요소 기반의 기본 프레임을 만들고 VLM 추론으로 패널-구성요소 영역을 식별한다.
객체의 기능성과 기하학적 특성에 따라 패널 구성요소가 필요한 부위를 결정하기 위해 비전-언어 모델을 사용한다.
레이블링된 축등시 뷰를 통해 VLM이 식별한 부품을 메쉬 면에 매핑해 패널 배치를 안내하되 접근 불가능한 면은 제외한다.
피드백 루프를 통해 라벨을 VLM 프롬프트로 조정하고 메쉬에 재매핑하여 업데이트된 조립을 수행한다.
좌표 및 구성요소 유형 목록을 내보내 구조 부품과 패널 구성요소의 피킹 앤 플레이스 조립을 위한 UR20 로봇 팔을 구동한다.

Figure 1: From text input to multi-component robotic assembly using predetermined components

실험 결과

연구 질문

RQ1비전-언어 모델이 객체 기능에 기반해 AI가 생성한 메쉬에 패널 구성요소를 어디에 배치해야 하는지 정확히 결정할 수 있는가?
RQ2VLM 기반의 제로샷 분해가 다부품 물체의 패널 할당에서 규칙 기반 및 무작위 기반과 비교하여 더 우수한가?
RQ3대화형 피드백이 사용자 의도와 최종 조립물 간의 정합성을 개선하는가?
RQ4엔드-투-엔드 파이프라인이 텍스트 프롬프트로부터 실제로 다부품 물체를 제작 제약을 준수하며 물리적으로 조립할 수 있는가?

주요 결과

사용자들은 VLM이 생성한 패널 할당을 규칙 기반 대비 90.6%의 비율로 선호했으며 무작위 할당보다도 높았다(59.4%, 2.5%와 비교).
규칙 기반 접근 방식은 수평면이 우세한 물체에 대해 VLM 성능과 일치했지만 의자, 램프, 쓰레기통과 같은 더 복잡한 물체에서는 실패했다.
McNemar 검정에서 VLM 할당은 두 기준선보다 유의하게 선호되었다(p < 0.001, 보정 후 Bonferroni).
시스템은 자연어 피드백을 통한 구성요소 할당의 사람-개입 업데이트를 지원한다.
여러 프롬프트에 대해 로봇 조립이 엔드-투-엔드로 성공적으로 수행되었고, 제작 제약으로 인해 내부면 또는 아래쪽 면의 패널은 불가능했다.

Figure 2: System Pipeline: Vision Language Model for Function and Geometry Aware Part Selection

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.