[논문 리뷰] Open-World Object Manipulation using Pre-trained Vision-Language Models
MOO는 개방 어휘 비전-언어 모델을 활용하여 언어 지시를 시각적 관찰에 grounding하여 로봇이 한 번도 본 적 없는 물체를 조작하고 물체, 배경, 모달리티 전반에 걸쳐 일반화할 수 있게 한다.
For robots to follow instructions from people, they must be able to connect the rich semantic information in human vocabulary, e.g. "can you get me the pink stuffed whale?" to their sensory observations and actions. This brings up a notably difficult challenge for robots: while robot learning approaches allow robots to learn many different behaviors from first-hand experience, it is impractical for robots to have first-hand experiences that span all of this semantic information. We would like a robot's policy to be able to perceive and pick up the pink stuffed whale, even if it has never seen any data interacting with a stuffed whale before. Fortunately, static data on the internet has vast semantic information, and this information is captured in pre-trained vision-language models. In this paper, we study whether we can interface robot policies with these pre-trained models, with the aim of allowing robots to complete instructions involving object categories that the robot has never seen first-hand. We develop a simple approach, which we call Manipulation of Open-World Objects (MOO), which leverages a pre-trained vision-language model to extract object-identifying information from the language command and image, and conditions the robot policy on the current image, the instruction, and the extracted object information. In a variety of experiments on a real mobile manipulator, we find that MOO generalizes zero-shot to a wide range of novel object categories and environments. In addition, we show how MOO generalizes to other, non-language-based input modalities to specify the object of interest such as finger pointing, and how it can be further extended to enable open-world navigation and manipulation. The project's website and evaluation videos can be found at https://robot-moo.github.io/
연구 동기 및 목표
- 자연어로 설명된 새로운 객체 범주를 시각적 관찰에 근거하여 언어를 grounding함으로써 조작 가능하게 한다.
- 고정된 사전 학습 비전-언어 모델을 활용하여 물체를 위치시키고 객체 위치와 지시에 기반해 학습된 정책을 조건화한다.
- 오픈-어휘 탐지기를 활용하여 보지 못한 물체와 환경에 대한 제로샷 일반화를 시연한다.
- 지시 말 이외의 입력 모달리티(예: 가리킴, 이미지)에 대한 강건성과 오픈-어휘 내비게이션과의 통합을 보인다.
제안 방법
- 현재 이미지에서 지시문에 따라 설명된 물체를 고정된 비전-언어 모델(Owl-ViT)을 사용하여 로컬라이즈한다.
- 물체 정보를 예측 바운딩 박스의 중심점인 단일 픽셀 위치 또는 이미지 입력에 추가된 다중 채널 물체 마스크로 표현한다.
- 현재 이미지, 지시문, 물체 로컬라이제이션 마스크에 기반해 언어-조건 정책(RT-1 백본)을 조건화한다.
- VLM을 고정한 채 106개 물체 세트의 시演을 통한 모방 학습으로 엔드-투-엔드 학습을 수행하되 VLM은 고정된 상태를 유지한다.
- 실제 모바일 매니퓰레이터를 대상으로 1,472회의 평가를 수행하며 다섯 가지 기술(잡기, 가까이 옮기기, 두드리기, 똑바로 올려놓기, 넣어 놓기)을 평가한다.
- 물체 지정에 대한 대체 입력 모달리티(예: 가리킴, 이미지, GUI 마스크)를 탐색하고 개방 어휘 내비게이션(CoW)과 통합하여 CoW-MOO를 구성한다.
실험 결과
연구 질문
- RQ1MOO는 추가 시연 없이도 언어로 설명된 새로운 객체 범주에 대한 조작 정책을 일반화할 수 있는가?
- RQ2사전 학습된 비전-언어 모델을 통한 grounding이 배경, 질감, 새로운 환경에 대한 강건성에 어떤 영향을 미치는가?
- RQ3비언어적 입력 모달리티가 대상 객체를 Grounding에 효과적으로 지정할 수 있는가?
- RQ4훈련 데이터 규모, 객체 다양성, 모델 규모가 보지 못한 객체 일반화에 어떤 영향을 미치는가?
- RQ5개방 세계 내비게이션을 개방 세계 조작과 결합한 엔드투엔드 작업이 가능한가?
주요 결과
- MOO는 특히 잡기 기술에서 RT-1 및 VIMA 유사 기준선 대비 보지 못한 객체에 대한 일반화를 크게 개선한다.
- MOO는 새로운 환경, 도전적인 질감, 추가적인 개방 세계 물체에서도 강건성을 유지하며 이러한 설정에서 기준선을 능가한다.
- VLM 로컬리제이션에서 도출된 객체 표현은 텍스트 프롬프트, 캡션, 대상 이미지, 또는 사람이 제공한 마스크와 같은 다양한 모달리티를 통해 성공적으로 grounding될 수 있다.
- 삭제 가능한 인자(아블레이션)를 통해 보지 못한 객체 일반화는 학습 데이터의 객체 다양성에 민감하며 더 큰 모델이 더 나은 성능을 보이고, 크기를 줄이면 이득이 감소한다.
- CoW와의 결합으로 개방 어휘 내비게이션을 통한 개방 세계 내비게이션과 조작이 하나의 응집된 시스템으로 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.