QUICK REVIEW

[論文レビュー] Text to Robotic Assembly of Multi Component Objects using 3D Generative AI and Vision Language Models

Kyaw, Alexander Htet, Gupta, Richa|arXiv (Cornell University)|Nov 4, 2025

Modular Robots and Swarm Intelligence被引用数 3

ひとこと要約

この研究は、3D生成AIと視覚-言語モデルを統合して、AI生成メッシュを事前定義された構造およびパネル部品に分解し、ロボット組立を可能にするテキスト駆動・多部品製作を人間の介在を含むフィードバックで実現します。

ABSTRACT

Advances in 3D generative AI have enabled the creation of physical objects from text prompts, but challenges remain in creating objects involving multiple component types. We present a pipeline that integrates 3D generative AI with vision-language models (VLMs) to enable the robotic assembly of multi-component objects from natural language. Our method leverages VLMs for zero-shot, multi-modal reasoning about geometry and functionality to decompose AI-generated meshes into multi-component 3D models using predefined structural and panel components. We demonstrate that a VLM is capable of determining which mesh regions need panel components in addition to structural components, based on the object's geometry and functionality. Evaluation across test objects shows that users preferred the VLM-generated assignments 90.6% of the time, compared to 59.4% for rule-based and 2.5% for random assignment. Lastly, the system allows users to refine component assignments through conversational feedback, enabling greater human control and agency in making physical objects with generative AI and robotics.

研究の動機と目的

自然言語プロンプトから多部品オブジェクトの物理的な製作を可能にする動機付け。
AI生成メッシュを構造部品ベースのフレームとパネル部品領域へ、幾何と機能を考慮した分解を提案。
視覚-言語モデルを活用したゼロショットのマルチモーダル推論で、オブジェクトの機能に基づくパネル部品を割り当てる。
タスク特化した学習を必要とせず、会話的なフィードバックワークフローを提供して部品割り当てを-refine。
テキスト入力から predefined components を用いたロボット組立までのエンドツーエンド統合を実演。

提案手法

Autodesk の3D生成AIモデルを用いてテキストプロンプトからAIメッシュを生成。
メッシュをボクセル化して構造部品ベースの基底フレームを作成し、VLM推論でパネル部品領域を特定。
視覚-言語モデルを用いて、オブジェクトの機能と幾何に基づきどの部品にパネル部品が必要かを決定。
ラベル付きアクソノメトリックビューを介してVLMが特定した部品をメッシュの面にマッピングし、到達不能な面を除外してパネル配置を誘導。
人間の介入を取り入れてVLMプロンプトを通じてラベルを調整し、更新された組立のためにメッシュへ再マッピング。
座標と部品タイプのリストをエクスポートして、構造部品とパネル部品のピッキング＆配置用のUR20ロボットアームを駆動。

Figure 1: From text input to multi-component robotic assembly using predetermined components

実験結果

リサーチクエスチョン

RQ1視覚-言語モデルは、オブジェクトの機能に基づいてAI生成メッシュ上のパネル部品の配置場所を正しく決定できるか。
RQ2VLMベースのゼロショット分解は、部品割り当てにおけるルールベースやランダムな基準より優れているか。
RQ3対話的フィードバックは最終的な組立物とユーザー意図の整合性を高められるか。
RQ4エンドツーエンドのパイプラインは、製作制約を尊重しつつテキストプロンプトから多部品オブジェクトを実際に組み立てられるか。

主な発見

Method	Chair	Table	Lamp	Shelf	Trash Can	Mean
VLM (ours)	96.9% (31)	100.0% (32)	81.3% (26)	100.0% (32)	75.0% (24)	90.6%
Rule–based	18.8% (6)	100.0% (32)	34.4% (11)	100.0% (32)	43.8% (14)	59.4%
Random	0.0% (0)	0.0% (0)	0.0% (0)	6.3% (2)	6.3% (2)	2.5%

ユーザーはVLM生成のパネル割り当てを、ルールベースよりも90.6%の頻度で好んだ（ルールベースは59.4%、ランダムは2.5%）。
ルールベースのアプローチは水平方向が主体のオブジェクトではVLMに匹敵したが、椅子・ランプ・ゴミ箱のような複雑なオブジェクトでは失敗した。
McNemar検定の結果、VLM割り当ては両ベースラインより有意に優れていた（Bonferroni補正後 p < 0.001）。
自然言語フィードバックを介した人間の介入で部品割り当てを refined できることを示す。
複数のプロンプトに対して、製作制約を満たす形でプログラム的に組立がエンドツーエンドで成功。

Figure 2: System Pipeline: Vision Language Model for Function and Geometry Aware Part Selection

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。