QUICK REVIEW

[논문 리뷰] CoViLLM: An Adaptive Human-Robot Collaborative Assembly Framework Using Large Language Models

Jiabao Zhao, Jonghan Lim|arXiv (Cornell University)|2026. 03. 12.

Robot Manipulation and Learning인용 수 0

한 줄 요약

CoViLLM은 깊이 기반 로컬라이제이션, 인간 분류, 그리고 미세 조정된 대형 언어 모델을 통합하여 맞춤형이면서 보지 못한(처음 보는) 제품의 조립을 동적으로 계획하고 실행합니다. 점차 어려워지는 사례들에 걸쳐 NIST Assembly Task Board에서 검증되었습니다.

ABSTRACT

With increasing demand for mass customization, traditional manufacturing robots that rely on rule-based operations lack the flexibility to accommodate customized or new product variants. Human-Robot Collaboration has demonstrated potential to improve system adaptability by leveraging human versatility and decision-making capabilities. However, existing Human-Robot Collaborative frameworks typically depend on predefined perception-manipulation pipelines, limiting their ability to autonomously generate task plans for new product assembly. In this work, we propose CoViLLM, an adaptive human-robot collaborative assembly framework that supports the assembly of customized and previously unseen products. CoViLLM combines depth-camera-based localization for object position estimation, human operator classification for identifying new components, and a Large Language Model for assembly task planning based on natural language instructions. The framework is validated on the NIST Assembly Task Board for known, customized, and new product cases. Experimental results show that the proposed framework enables flexible collaborative assembly by extending Human-Robot Collaboration beyond predefined product and task settings.

연구 동기 및 목표

로봇이 사전에 정의된 파이프라인 없이 맞춤형 혹은 보지 못한 제품의 조립을 가능하게 하여 대량 맞춤화를 해결한다.
런타임에서 unseen 컴포넌트를 식별하기 위해 깊이 기반 객체 로컬라이제이션과 인간 운영자 분류를 통합한다.
자연어 지시로부터 구조화된 조립 시퀀스를 생성하기 위해 대형 언어 모델을 사용한다.
프레임워크를 표준화된 조립 작업에서 검증하여 미리 정의된 제품 지식 외의 적응력을 보여준다.

제안 방법

깊이 기반 로컬라이제이션, 인간 운용자 분류, LLM 추론을 결합한 실행 시간 협업 비전 프레임워크를 개발하여 unseen 컴포넌트를 다룬다.
컴포넌트 좌표를 추정하기 위해 노이즈 제거(Denoise), 이진 마스크 생성(Create Binary Mask), 객체 추출(Object Extraction)의 3단계 로컬라이제이션을 구현한다.
알려진 카메라 내부 파라미터와 외부 파라미터를 사용해 이미지 좌표를 로봇 베이스 프레임으로 매핑하는 아이-투-핸드 변환을 수행한다.
로컬라이즈된 객체를 의미론적 컴포넌트 설명과 연결하기 위해 인간 분류 피드백을 통합한다.
시스템 프롬프트, 로컬라이제이션 입력 및 대응하는 조립 출력을 포함한 100개의 고품질 예제로 GPT-4.1 미니를 파인튜닝하여 신뢰성을 높이고 할루시네이션을 줄인다.
전략적 사례 연구에서 기준 모델과 미세 조정된 모델 간의 작업 계획 정확도를 평가한다.

실험 결과

연구 질문

RQ1런타임 깊이 기반 로컬라이제이션이 협업 조립 설정에서 unseen 컴포넌트를 감지할 수 있는가?
RQ2로컬라이즈된 컴포넌트를 의미론적 설명에 매핑하기 위해 인간 운영자 분류가 LLM 추론과 어떻게 통합되는가?
RQ3LLM 미세 조정이 조립 시퀀스 생성 및 unseen 제품에 대한 지연/환각 감소에 도움이 되는가?
RQ4증가하는 작업 복잡성에 따라 새로운 다수의 unseen 컴포넌트를 가진 새로운 제품을 프레임워크가 어느 정도까지 조립할 수 있는가?

주요 결과

Case	GPT-4.1 mini	GPT-4.1	GPT-4.1 mini (FT)
Case 1	3/3	3/3	3/3
Case 2	2/3	3/3	3/3
Case 3	1/3	2/3	3/3

미세 조정된 GPT-4.1 미니는 사례 1에서 3/3의 정확한 조립 시퀀스, 사례 2에서 3/3, 사례 3에서도 3/3를 달성했다.
기준 GPT-4.1 미니 및 GPT-4.1은 unseen 컴포넌트가 늘어남에 따라 성능이 감소하는 반면, 미세 조정 모델은 100% 정확성을 유지했다.
기준 모델은 unseen 컴포넌트 증가에 따라 로컬라이제이션과 분류를 매핑하기 위한 더 복잡한 공간 추론이 필요해 지연 시간이 더 길었다.
인간 분류는 보지 못한 컴포넌트를 로컬라이즈된 위치와 올바르게 연결하는 데 필수적이며, 로컬라이제이션만에 의존하면 불일치가 발생할 수 있다.
제안된 미세 조정 모델은 미세 조정 데이터셋에서 작업별 추론 패턴을 학습함으로써 기준 모델 대비 지연 시간을 줄인다.
실험 결과는 신뢰할 수 있는 작업 계획을 위해 인간 분류와 로컬라이제이션 사이의 일관된 공간 추론의 중요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.