Skip to main content
QUICK REVIEW

[논문 리뷰] Manipulate-Anything: Automating Real-World Robots using Vision-Language Models

Jiafei Duan, Wentao Yuan|arXiv (Cornell University)|2024. 06. 27.
Robotic Path Planning Algorithms인용 수 5
한 줄 요약

Manipulate-Anything는 특권 상태 정보나 수작업으로 설계된 기술이 필요 없이 실제 로봇 조작의 확장 가능한 자동 시연 생성을 위한 방법으로, 다양한 물체를 다룰 수 있으며 제로샷 작업 수행을 가능하게 하고 강건한 행동 복제 정책을 학습하기 위한 데이터를 제공한다.

ABSTRACT

Large-scale endeavors like and widespread community efforts such as Open-X-Embodiment have contributed to growing the scale of robot demonstration data. However, there is still an opportunity to improve the quality, quantity, and diversity of robot demonstration data. Although vision-language models have been shown to automatically generate demonstration data, their utility has been limited to environments with privileged state information, they require hand-designed skills, and are limited to interactions with few object instances. We propose Manipulate-Anything, a scalable automated generation method for real-world robotic manipulation. Unlike prior work, our method can operate in real-world environments without any privileged state information, hand-designed skills, and can manipulate any static object. We evaluate our method using two setups. First, Manipulate-Anything successfully generates trajectories for all 7 real-world and 14 simulation tasks, significantly outperforming existing methods like VoxPoser. Second, Manipulate-Anything's demonstrations can train more robust behavior cloning policies than training with human demonstrations, or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe Manipulate-Anything can be a scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Project page: https://robot-ma.github.io/.

연구 동기 및 목표

  • 특권 상태 정보나 수작업으로 설계된 기술 없이도 확장 가능하고 다양한 로봇 시연 데이터를 촉진한다.
  • 비전-언어 모델을 활용해 실제 세계 환경에서 계획 수립, 행동 생성, 하위 목표의 검증을 수행한다.
  • 오류 복구와 다중 시점 추론을 가능하게 하여 성공률과 데이터 품질을 높인다.
  • 실세계 및 RLBench 시뮬레이션에서 제로샷 작업 달성을 보여준다.
  • Manipulate-Anything의 데이터가 인간 시演과 견주거나 능가하는 강건한 정책을 학습시킨다는 것을 입증한다.

제안 방법

  • 비전-언어 모델에 장면과 언어 지시를 입력해 물체와 하위 목표를 식별한다.
  • VLM을 통해 하위 목표를 검증 조건과 함께 분해한다.
  • 사전 맥락 학습을 이용해 6-DoF 엔드이 effector 포즈나 새로운 기술에 대한 코드를 생성해 하위 목표별 행동을 생성한다.
  • 다중 시점의 장면을 렌더링해 행동 생성을 지지하고 추론을 개선한다.
  • VLM 기반 검증기를 사용해 하위 목표의 성공 여부를 확인하고 필요한 경우 재계획한다.
  • 생성된 시演으로 PerAct 행동 복제 모델을 학습하고 인간 데이터와의 비교를 평가한다.

실험 결과

연구 질문

  • RQ1Manipulate-Anything가 특권 정보 없이도 다양한 실세계 과제를 제로샷으로 해결할 수 있는가?
  • RQ2Manipulate-Anything가 생성한 시演이 인간 시演과 비교하거나 능가하는 강건한 행동 복제 정책을 학습시킬 수 있는가?
  • RQ3다중 시점 추론이 조작 성공률과 일반화에 도움이 되는가?
  • RQ4제로샷 및 실제 세계 과제에서 VoxPoser와 CAP와의 비교는 어떠한가?

주요 결과

방법블록 놓기젠가 놀이병 열기상자 닫기상자 열기컵 집기우산 들기머스타드 정렬와인 열기램프 켜기칼 놓기집고 들기
VoxPoser70.7 ± 2.310.00 ± 0.000.00 ± 0.000.00 ± 0.000.00 ± 0.0026.7 ± 14.00------
CAP84.00 ± 16.000.00 ± 0.000.00 ± 0.000.00 ± 0.000.00 ± 0.0014.67 ± 4.62------
MA (Ours)96.00 ± 4.0077.33 ± 6.1180.00 ± 4.0033.33 ± 12.8629.00 ± 10.0782.67 ± 14.04------
VoxPoser33.33 ± 8.3396.0 ± 6.938.00 ± 4.0057.3 ± 12.2292.00 ± 4.0096.00 ± 0.00------
CAP4.00 ± 4.000.00 ± 0.000.00 ± 0.0064.00 ± 6.9314.67 ± 8.33100.00 ± 0.00------
MA (Ours)61.33 ± 20.1364.00 ± 6.9342.00 ± 4.0069.33 ± 6.1152.00 ± 10.5884.00 ± 6.93------
  • 다섯 가지 실세계 과제와 12개의 RLBench 시뮬레이션 과제에서 제로샷 작업 성공을 달성하고, 시뮬레이션 과제의 12개 중 9개에서 VoxPoser를 능가했다.
  • Manipulate-Anything가 생성한 시演은 여러 과제에서 인간 시演과 동일하거나 그 이상으로 성능을 보이는 행동 복제 정책을 가능하게 한다.
  • MA 데이터로 학습된 정책은 인간 데이터 정책과 비슷한 성능을 보이며, MA 데이터는 인간 시演에 대한 액션 분포 거리(Chamfer Distance)가 더 작게 나타나는 경우가 많다.
  • 실세계 실험에서 MA가 생성한 데이터는 제로샷 및 인간 데이터 기반의 기준선과 비교해 대부분의 과제에서 경쟁력 있는 혹은 우수한 정책 성능을 보인다.
  • 이 방법은 확장 가능한 데이터 생성과 VoxPoser에 비해 언어 지시 변화에 대한 내성을 향상시키는 데 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.