[논문 리뷰] Manipulate-Anything: Automating Real-World Robots using Vision-Language Models
Manipulate-Anything는 특권 상태 정보나 수작업으로 설계된 기술이 필요 없이 실제 로봇 조작의 확장 가능한 자동 시연 생성을 위한 방법으로, 다양한 물체를 다룰 수 있으며 제로샷 작업 수행을 가능하게 하고 강건한 행동 복제 정책을 학습하기 위한 데이터를 제공한다.
Large-scale endeavors like and widespread community efforts such as Open-X-Embodiment have contributed to growing the scale of robot demonstration data. However, there is still an opportunity to improve the quality, quantity, and diversity of robot demonstration data. Although vision-language models have been shown to automatically generate demonstration data, their utility has been limited to environments with privileged state information, they require hand-designed skills, and are limited to interactions with few object instances. We propose Manipulate-Anything, a scalable automated generation method for real-world robotic manipulation. Unlike prior work, our method can operate in real-world environments without any privileged state information, hand-designed skills, and can manipulate any static object. We evaluate our method using two setups. First, Manipulate-Anything successfully generates trajectories for all 7 real-world and 14 simulation tasks, significantly outperforming existing methods like VoxPoser. Second, Manipulate-Anything's demonstrations can train more robust behavior cloning policies than training with human demonstrations, or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe Manipulate-Anything can be a scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Project page: https://robot-ma.github.io/.
연구 동기 및 목표
- 특권 상태 정보나 수작업으로 설계된 기술 없이도 확장 가능하고 다양한 로봇 시연 데이터를 촉진한다.
- 비전-언어 모델을 활용해 실제 세계 환경에서 계획 수립, 행동 생성, 하위 목표의 검증을 수행한다.
- 오류 복구와 다중 시점 추론을 가능하게 하여 성공률과 데이터 품질을 높인다.
- 실세계 및 RLBench 시뮬레이션에서 제로샷 작업 달성을 보여준다.
- Manipulate-Anything의 데이터가 인간 시演과 견주거나 능가하는 강건한 정책을 학습시킨다는 것을 입증한다.
제안 방법
- 비전-언어 모델에 장면과 언어 지시를 입력해 물체와 하위 목표를 식별한다.
- VLM을 통해 하위 목표를 검증 조건과 함께 분해한다.
- 사전 맥락 학습을 이용해 6-DoF 엔드이 effector 포즈나 새로운 기술에 대한 코드를 생성해 하위 목표별 행동을 생성한다.
- 다중 시점의 장면을 렌더링해 행동 생성을 지지하고 추론을 개선한다.
- VLM 기반 검증기를 사용해 하위 목표의 성공 여부를 확인하고 필요한 경우 재계획한다.
- 생성된 시演으로 PerAct 행동 복제 모델을 학습하고 인간 데이터와의 비교를 평가한다.
실험 결과
연구 질문
- RQ1Manipulate-Anything가 특권 정보 없이도 다양한 실세계 과제를 제로샷으로 해결할 수 있는가?
- RQ2Manipulate-Anything가 생성한 시演이 인간 시演과 비교하거나 능가하는 강건한 행동 복제 정책을 학습시킬 수 있는가?
- RQ3다중 시점 추론이 조작 성공률과 일반화에 도움이 되는가?
- RQ4제로샷 및 실제 세계 과제에서 VoxPoser와 CAP와의 비교는 어떠한가?
주요 결과
| 방법 | 블록 놓기 | 젠가 놀이 | 병 열기 | 상자 닫기 | 상자 열기 | 컵 집기 | 우산 들기 | 머스타드 정렬 | 와인 열기 | 램프 켜기 | 칼 놓기 | 집고 들기 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| VoxPoser | 70.7 ± 2.31 | 0.00 ± 0.00 | 0.00 ± 0.00 | 0.00 ± 0.00 | 0.00 ± 0.00 | 26.7 ± 14.00 | - | - | - | - | - | - |
| CAP | 84.00 ± 16.00 | 0.00 ± 0.00 | 0.00 ± 0.00 | 0.00 ± 0.00 | 0.00 ± 0.00 | 14.67 ± 4.62 | - | - | - | - | - | - |
| MA (Ours) | 96.00 ± 4.00 | 77.33 ± 6.11 | 80.00 ± 4.00 | 33.33 ± 12.86 | 29.00 ± 10.07 | 82.67 ± 14.04 | - | - | - | - | - | - |
| VoxPoser | 33.33 ± 8.33 | 96.0 ± 6.93 | 8.00 ± 4.00 | 57.3 ± 12.22 | 92.00 ± 4.00 | 96.00 ± 0.00 | - | - | - | - | - | - |
| CAP | 4.00 ± 4.00 | 0.00 ± 0.00 | 0.00 ± 0.00 | 64.00 ± 6.93 | 14.67 ± 8.33 | 100.00 ± 0.00 | - | - | - | - | - | - |
| MA (Ours) | 61.33 ± 20.13 | 64.00 ± 6.93 | 42.00 ± 4.00 | 69.33 ± 6.11 | 52.00 ± 10.58 | 84.00 ± 6.93 | - | - | - | - | - | - |
- 다섯 가지 실세계 과제와 12개의 RLBench 시뮬레이션 과제에서 제로샷 작업 성공을 달성하고, 시뮬레이션 과제의 12개 중 9개에서 VoxPoser를 능가했다.
- Manipulate-Anything가 생성한 시演은 여러 과제에서 인간 시演과 동일하거나 그 이상으로 성능을 보이는 행동 복제 정책을 가능하게 한다.
- MA 데이터로 학습된 정책은 인간 데이터 정책과 비슷한 성능을 보이며, MA 데이터는 인간 시演에 대한 액션 분포 거리(Chamfer Distance)가 더 작게 나타나는 경우가 많다.
- 실세계 실험에서 MA가 생성한 데이터는 제로샷 및 인간 데이터 기반의 기준선과 비교해 대부분의 과제에서 경쟁력 있는 혹은 우수한 정책 성능을 보인다.
- 이 방법은 확장 가능한 데이터 생성과 VoxPoser에 비해 언어 지시 변화에 대한 내성을 향상시키는 데 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.