QUICK REVIEW

[논문 리뷰] Manipulate-Anything: Automating Real-World Robots using Vision-Language Models

Jiafei Duan, Wentao Yuan|arXiv (Cornell University)|2024. 06. 27.

Robotic Path Planning Algorithms인용 수 5

한 줄 요약

Manipulate-Anything는 특권 상태 정보나 수작업으로 설계된 기술이 필요 없이 실제 로봇 조작의 확장 가능한 자동 시연 생성을 위한 방법으로, 다양한 물체를 다룰 수 있으며 제로샷 작업 수행을 가능하게 하고 강건한 행동 복제 정책을 학습하기 위한 데이터를 제공한다.

ABSTRACT

Large-scale endeavors like and widespread community efforts such as Open-X-Embodiment have contributed to growing the scale of robot demonstration data. However, there is still an opportunity to improve the quality, quantity, and diversity of robot demonstration data. Although vision-language models have been shown to automatically generate demonstration data, their utility has been limited to environments with privileged state information, they require hand-designed skills, and are limited to interactions with few object instances. We propose Manipulate-Anything, a scalable automated generation method for real-world robotic manipulation. Unlike prior work, our method can operate in real-world environments without any privileged state information, hand-designed skills, and can manipulate any static object. We evaluate our method using two setups. First, Manipulate-Anything successfully generates trajectories for all 7 real-world and 14 simulation tasks, significantly outperforming existing methods like VoxPoser. Second, Manipulate-Anything's demonstrations can train more robust behavior cloning policies than training with human demonstrations, or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe Manipulate-Anything can be a scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Project page: https://robot-ma.github.io/.

연구 동기 및 목표

특권 상태 정보나 수작업으로 설계된 기술 없이도 확장 가능하고 다양한 로봇 시연 데이터를 촉진한다.
비전-언어 모델을 활용해 실제 세계 환경에서 계획 수립, 행동 생성, 하위 목표의 검증을 수행한다.
오류 복구와 다중 시점 추론을 가능하게 하여 성공률과 데이터 품질을 높인다.
실세계 및 RLBench 시뮬레이션에서 제로샷 작업 달성을 보여준다.
Manipulate-Anything의 데이터가 인간 시演과 견주거나 능가하는 강건한 정책을 학습시킨다는 것을 입증한다.

제안 방법

비전-언어 모델에 장면과 언어 지시를 입력해 물체와 하위 목표를 식별한다.
VLM을 통해 하위 목표를 검증 조건과 함께 분해한다.
사전 맥락 학습을 이용해 6-DoF 엔드이 effector 포즈나 새로운 기술에 대한 코드를 생성해 하위 목표별 행동을 생성한다.
다중 시점의 장면을 렌더링해 행동 생성을 지지하고 추론을 개선한다.
VLM 기반 검증기를 사용해 하위 목표의 성공 여부를 확인하고 필요한 경우 재계획한다.
생성된 시演으로 PerAct 행동 복제 모델을 학습하고 인간 데이터와의 비교를 평가한다.

실험 결과

연구 질문

RQ1Manipulate-Anything가 특권 정보 없이도 다양한 실세계 과제를 제로샷으로 해결할 수 있는가?
RQ2Manipulate-Anything가 생성한 시演이 인간 시演과 비교하거나 능가하는 강건한 행동 복제 정책을 학습시킬 수 있는가?
RQ3다중 시점 추론이 조작 성공률과 일반화에 도움이 되는가?
RQ4제로샷 및 실제 세계 과제에서 VoxPoser와 CAP와의 비교는 어떠한가?

주요 결과

방법	블록 놓기	젠가 놀이	병 열기	상자 닫기	상자 열기	컵 집기	우산 들기	머스타드 정렬	와인 열기	램프 켜기	칼 놓기	집고 들기
VoxPoser	70.7 ± 2.31	0.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00	26.7 ± 14.00	-	-	-	-	-	-
CAP	84.00 ± 16.00	0.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00	0.00 ± 0.00	14.67 ± 4.62	-	-	-	-	-	-
MA (Ours)	96.00 ± 4.00	77.33 ± 6.11	80.00 ± 4.00	33.33 ± 12.86	29.00 ± 10.07	82.67 ± 14.04	-	-	-	-	-	-
VoxPoser	33.33 ± 8.33	96.0 ± 6.93	8.00 ± 4.00	57.3 ± 12.22	92.00 ± 4.00	96.00 ± 0.00	-	-	-	-	-	-
CAP	4.00 ± 4.00	0.00 ± 0.00	0.00 ± 0.00	64.00 ± 6.93	14.67 ± 8.33	100.00 ± 0.00	-	-	-	-	-	-
MA (Ours)	61.33 ± 20.13	64.00 ± 6.93	42.00 ± 4.00	69.33 ± 6.11	52.00 ± 10.58	84.00 ± 6.93	-	-	-	-	-	-

다섯 가지 실세계 과제와 12개의 RLBench 시뮬레이션 과제에서 제로샷 작업 성공을 달성하고, 시뮬레이션 과제의 12개 중 9개에서 VoxPoser를 능가했다.
Manipulate-Anything가 생성한 시演은 여러 과제에서 인간 시演과 동일하거나 그 이상으로 성능을 보이는 행동 복제 정책을 가능하게 한다.
MA 데이터로 학습된 정책은 인간 데이터 정책과 비슷한 성능을 보이며, MA 데이터는 인간 시演에 대한 액션 분포 거리(Chamfer Distance)가 더 작게 나타나는 경우가 많다.
실세계 실험에서 MA가 생성한 데이터는 제로샷 및 인간 데이터 기반의 기준선과 비교해 대부분의 과제에서 경쟁력 있는 혹은 우수한 정책 성능을 보인다.
이 방법은 확장 가능한 데이터 생성과 VoxPoser에 비해 언어 지시 변화에 대한 내성을 향상시키는 데 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.