QUICK REVIEW

[論文レビュー] CoViLLM: An Adaptive Human-Robot Collaborative Assembly Framework Using Large Language Models

Jiabao Zhao, Jonghan Lim|arXiv (Cornell University)|Mar 12, 2026

Robot Manipulation and Learning被引用数 0

ひとこと要約

CoViLLM は深度ベースの局在、ヒューマン分類、微調整済みの大規模言語モデルを統合し、未見の製品を動的に計画・実行する。段階的に難易度が上がるケースで NIST Assembly Task Board における検証を実施。

ABSTRACT

With increasing demand for mass customization, traditional manufacturing robots that rely on rule-based operations lack the flexibility to accommodate customized or new product variants. Human-Robot Collaboration has demonstrated potential to improve system adaptability by leveraging human versatility and decision-making capabilities. However, existing Human-Robot Collaborative frameworks typically depend on predefined perception-manipulation pipelines, limiting their ability to autonomously generate task plans for new product assembly. In this work, we propose CoViLLM, an adaptive human-robot collaborative assembly framework that supports the assembly of customized and previously unseen products. CoViLLM combines depth-camera-based localization for object position estimation, human operator classification for identifying new components, and a Large Language Model for assembly task planning based on natural language instructions. The framework is validated on the NIST Assembly Task Board for known, customized, and new product cases. Experimental results show that the proposed framework enables flexible collaborative assembly by extending Human-Robot Collaboration beyond predefined product and task settings.

研究の動機と目的

ロボットが事前定義されたパイプラインなしで、カスタマイズされたまたは未見の製品を組み立てられるよう mass customization に対応する。
深度ベースの物体局在とヒューマンオペレーター分類を統合して、 runtime で未見部品を特定する。
自然言語指示から構造化された組立シーケンスを生成する大規模言語モデルを使用する。
標準化された組立タスク上でフレームワークを検証し、事前定義された製品知識を超えた適応性を示す。

提案手法

深度ベースの局在、ヒューマンオペレーター分類、LLM 推論を組み合わせたランタイム協調ビジョンフレームワークを未見部品用に開発する。
部品座標を推定するための三段階局在化（デノイズ、バイナリマスク作成、オブジェクト抽出）を実装する。
既知のカメラ内部パラメータ・外部パラメータを用いて、イメージ座標をロボット基座フレームへマップするアイ-トゥ-ハンド変換を実施する。
局在化したオブジェクトを意味的部品説明に結びつけるためにヒューマン分類フィードバックを組み込む。
システムプロンプト、局在化入力、および対応する組立出力を含む100例の高品質サンプルでGPT-4.1 mini を微調整し、信頼性を向上させ幻覚を低減する。
タスク計画の正確性をベースラインモデルおよび微調整モデルと比較して、段階的に複雑化するケーススタディで評価する。

実験結果

リサーチクエスチョン

RQ1 runtime における深度ベースの局在は、協働組立設定で未見部品を検出できるか？
RQ2ヒューマンオペレーター分類はLLM推論とどのように統合され、局在化した部品を意味描述にマッピングするのに役立つか？
RQ3LLM の微調整は、未見製品の組立シーケンス生成と遅延／幻覚の低減に寄与するか？
RQ4フレームワークは、増大するタスクの複雑性の中で新しい部品を含む新製品をどの程度組み立てられるか？

主な発見

Case	GPT-4.1 mini	GPT-4.1	GPT-4.1 mini (FT)
Case 1	3/3	3/3	3/3
Case 2	2/3	3/3	3/3
Case 3	1/3	2/3	3/3

微調整済み GPT-4.1 mini は Case 1で 3/3、Case 2で 3/3、Case 3で 3/3 の正しい組立シーケンスを達成。
ベースラインの GPT-4.1 mini および GPT-4.1 は未見部品が増えると性能が低下する一方、微調整モデルは 100% の正確性を維持。
未見部品が増えると、分類を局在化へマッピングするためにより高度な空間推論が必要となり、ベースラインモデルの遅延が大きい。
ヒューマン分類は、未見部品を局在化位置と正しく結びつけるのに不可欠であり、局在化だけに依存すると不一致が生じる。
提案された微調整モデルは、微調整データセットからタスク固有の推論パターンを学ぶことで、ベースラインと比較して遅延を低減する。
実験結果は、信頼性の高いタスク計画のためには人間の分類と局在化の間で一貫した空間推論が重要であることを強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。