Skip to main content
QUICK REVIEW

[논문 리뷰] CLIPort: What and Where Pathways for Robotic Manipulation

Mohit Shridhar, Lucas Manuelli|arXiv (Cornell University)|2021. 09. 24.
Multimodal Machine Learning Applications참고 문헌 65인용 수 99
한 줄 요약

CLIPort은 CLIP의 의미 스트림과 공간적 Transporter 기반 스트림을 융합하여 언어를 미세한 행동으로 grounding하는 두 흐름의 언어-조건 조작 프레임워크를 제시하고, 시뮬레이션과 실제 로봇에서 소수 샷 및 다중 작업 일반화가 강하게 실현됩니다.

ABSTRACT

How can we imbue robots with the ability to manipulate objects precisely but also to reason about them in terms of abstract concepts? Recent works in manipulation have shown that end-to-end networks can learn dexterous skills that require precise spatial reasoning, but these methods often fail to generalize to new goals or quickly learn transferable concepts across tasks. In parallel, there has been great progress in learning generalizable semantic representations for vision and language by training on large-scale internet data, however these representations lack the spatial understanding necessary for fine-grained manipulation. To this end, we propose a framework that combines the best of both worlds: a two-stream architecture with semantic and spatial pathways for vision-based manipulation. Specifically, we present CLIPort, a language-conditioned imitation-learning agent that combines the broad semantic understanding (what) of CLIP [1] with the spatial precision (where) of Transporter [2]. Our end-to-end framework is capable of solving a variety of language-specified tabletop tasks from packing unseen objects to folding cloths, all without any explicit representations of object poses, instance segmentations, memory, symbolic states, or syntactic structures. Experiments in simulated and real-world settings show that our approach is data efficient in few-shot settings and generalizes effectively to seen and unseen semantic concepts. We even learn one multi-task policy for 10 simulated and 9 real-world tasks that is better or comparable to single-task policies.

연구 동기 및 목표

  • 추상적 의미 개념(무엇)을 조작을 위한 정밀한 공간적 동작(어디)에 ground한다.
  • 작업 간 개념 전이를 가능하게 하는 언어 조건 제어를 enable한다.
  • 적은 시연으로 데이터 효율적 학습을 달성하고 다중 작업 학습을 지원한다.
  • 최소 데이터로 시뮬레이션에서 실제 로봈틱스로의 전이를 입증한다.

제안 방법

  • 사전 학습된 CLIP 특성으로 조건화된 의미 스트림과 RGB-D 입력을 처리하는 공간 스트림의 이중 스트림 아키텍처를 채택한다.
  • 이동-조작 Q-함수를 위한 Transporter 스타일 FCN을 사용하여 집기와 배치를 예측하는 조작을 픽 앤 플레이스 가능도 예측으로 공식화한다.
  • 의미 스트림을 CLIP 언어 인코딩으로 조건화하고 언어 특성을 디코더 층에 타일링한다.
  • 픽셀 단위의 동작 맵에 대한 교차 엔트로피 손실을 사용하는 시연 학습을 통해 학습한다.
  • 이동기 포즈의 시작/끝점 두 단계의 동작 원시를 사용하고 평행 이동에 불변인 네트워크를 활용한다.
  • 데모 전반에 걸쳐 작업과 속성을 무작위화하여 다중 작업 및 미지의 속성 일반화를 확장한다.

실험 결과

연구 질문

  • RQ1언어 조건 두 스트림 아키텍처가 단일 스트림 또는 기준선 접근법에 비해 미세한 조작에 얼마나 효과적인가?
  • RQ2단일 다중 작업 모델이 미지의 속성을 포함한 다수의 언어 조건 작업에 일반화할 수 있는가?
  • RQ3의미 속성(색상, 모양, 객체 범주)이 보인 시나리오와 보이지 않는 시나리오에 얼마나 일반화되는가?
  • RQ4시뮬레이션에서 실제 로봇 조작으로의 전이가 제한된 데이터로 얼마나 잘 이루어지는가?

주요 결과

  • 두 스트림 CLIPport는 Transporter 전용 및 CLIP 전용 기준선보다 우수하며, 적은 데모로 높은 성공률을 달성한다(예: 단일 작업 CLIPport가 100 데모로 90%를 초과).
  • 10개의 작업에서 학습된 다중 작업 CLIPport 모델은 다수의 작업에서 단일 작업 모델과 맞먹거나 이를 능가하여 작업 간 일반화가 효과적임을 보인다.
  • 보인 속성의 경우 CLIPport(단일)은 잘 작동하지만 보이지 않는 속성의 경우 grounding이 더 어렵지만 다중 작업 설정에서의 명시적 전이가 성능을 크게 향상시킴(CLIPport 다속성).
  • 실제 로봇 실험에서 약 179개의 이미지-동작 쌍으로 학습된 다중 작업 모델은 9개 작업에서 의미 있는 성공을 달성하며 간단한 작업에서의 성능은 약 70% 수준이다.
  • 보이지 않는 속성은 전반적으로 성능이 낮아지지만, 작업 간 의미 전이를 활용하면 이점이 나타나며 예를 들어 분홍색 블록이 보이지 않는 색상 작업 해결에 도움을 준다.
  • 이 프레임워크는 소수 샷 설정에서 데이터 효율을 보여주고, 하나의 정책으로 여러 작업을 학습하여 단일 작업 정책과 대등하거나 그보다 우수한 성능을 낼 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.