QUICK REVIEW

[논문 리뷰] Monocular 3D Object Position Estimation with VLMs for Human-Robot Interaction

Ari Wahl, Dorian Gawlinski|arXiv (Cornell University)|2026. 03. 01.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

이 연구는 LoRA로 비전-언어 모델을 미세조정하여 단일 단안 이미에서 3D 객체 위치를 예측하며, 좌표당 예측의 중앙값 MAE 13 mm 및 중앙값 유클리드 오차 27 mm를 달성하고, 로봇 상호작용 작업에서 좌표당 10 mm 이내인 예측이 약 25%에 해당합니다.

ABSTRACT

Pre-trained general-purpose Vision-Language Models (VLM) hold the potential to enhance intuitive human-machine interactions due to their rich world knowledge and 2D object detection capabilities. However, VLMs for 3D coordinates detection tasks are rare. In this work, we investigate interactive abilities of VLMs by returning 3D object positions given a monocular RGB image from a wrist-mounted camera, natural language input, and robot states. We collected and curated a heterogeneous dataset of more than 100,000 images and finetuned a VLM using QLoRA with a custom regression head. By implementing conditional routing, our model maintains its ability to process general visual queries while adding specialized 3D position estimation capabilities. Our results demonstrate robust predictive performance with a median MAE of 13 mm on the test set and a five-fold improvement over a simpler baseline without finetuning. In about 25% of the cases, predictions are within a range considered acceptable for the robot to interact with objects.

연구 동기 및 목표

로봇 설정에서 단안 RGB 이미지로 3D 객체 위치 추정을 가능하게 한다.
일반 VLM 기능을 유지하면서 3D 좌표 회귀에 대한 전문화를 추가한다.
기반 모델을 손상시키지 않고 LoRA 기반 미세조정을 활용하여 조건부 라우팅을 가능하게 한다.

제안 방법

기반으로 사전 학습된 일반 목적의 비전-언어 모델을 사용한다.
Low-Rank Adaptation (LoRA)와 3D 좌표 회귀를 위한 회귀 헤드로 미세조정한다.
일반 VLM 쿼리와 3D 회귀 작업을 분리하기 위해 조건부 라우팅을 구현한다.
손목에 장착된 카메라로 수집된 대규모 로봇 작업 공간 데이터 세트에서 학습한다.
보류된 테스트 세트에서 MAE와 유클리드 거리로 평가한다.
기본 경로와 전문 경로 간에 쿼리를 유연하게 라우팅하여 오픈 세트 기능을 유지한다.

실험 결과

연구 질문

RQ1VLM을 사용하여 로봇 작업 공간에서 단안 RGB 이미지가 신뢰할 수 있도록 3D 객체 좌표를 산출할 수 있는가?
RQ2LoRA와 회귀 헤드로의 미세조정이 베이스라인과 비교하여 3D 좌표 정확도에 어떤 영향을 미치는가?
RQ3조건부 라우팅이 일반 VLM 기능을 보존하면서 작업 특화 3D 추정을 가능하게 하는가?
RQ4객체 유형 및 시야 조건에 따른 오차 특성(예: z-높이 불확실성)은 어떤가?

주요 결과

LLaVA-v1.5 베이스를 가진 최적 모델이 테스트 세트에서 중앙값 MAE 13 mm를 달성한다.
테스트 세트의 중앙값 유클리드 오차는 27 mm이다.
예측의 약 25%가 좌표당 평균 오차 10 mm 이내이며, 그립잡기나 밀기 작업에 적합할 수 있다.
보지 않은 객체와 다양한 조명 및 물체 형태에 대한 오픈 세트 일반화가 입증되었으며, 사례의 75%에서 대부분의 오차가 20 mm MAE 미만이다.
다섯중 교차검증은 미세조정 없이 단순 베이스라인에 비해 상당한 개선을 보여준다(약 다섯배).
Z 좌표 오차(높이)는 일반적으로 x/y 좌표보다 더 크고 불확실하며 단안 깊이 문제를 반영한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.