[논문 리뷰] Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition
논문은 6DoF 로봇 원시동작과 검증/재시도 메커니즘이 있는 LLM-가이드 데이터 생성 파이프라인을 사용하여 크고 라벨링된 데이터세트를 생성한 후 이를 다중 작업의 언어 조건 시각-모션 정책으로 증류하여 개선된 성공률과 시뮬레이터-현실 전이(sim-to-real transfer)를 보여준다.
We present a framework for robot skill acquisition, which 1) efficiently scale up data generation of language-labelled robot data and 2) effectively distills this data down into a robust multi-task language-conditioned visuo-motor policy. For (1), we use a large language model (LLM) to guide high-level planning, and sampling-based robot planners (e.g. motion or grasp samplers) for generating diverse and rich manipulation trajectories. To robustify this data-collection process, the LLM also infers a code-snippet for the success condition of each task, simultaneously enabling the data-collection process to detect failure and retry as well as the automatic labeling of trajectories with success/failure. For (2), we extend the diffusion policy single-task behavior-cloning approach to multi-task settings with language conditioning. Finally, we propose a new multi-task benchmark with 18 tasks across five domains to test long-horizon behavior, common-sense reasoning, tool-use, and intuitive physics. We find that our distilled policy successfully learned the robust retrying behavior in its data collection procedure, while improving absolute success rates by 33.2% on average across five domains. Code, data, and additional qualitative results are available on https://www.cs.columbia.edu/~huy/scalingup/.
연구 동기 및 목표
- LLM-가이드 작업 계획과 6DoF 탐색 원시적 요소를 사용하여 언어로 라벨링된 로봇 데이터의 규모를 확장한다.
- 추정 성공 함수 및 자동 재시작을 통해 실패로부터 회복하는 데이터 수집의 견고함을 강화한다.
- 수집된 경험을 확산 모델을 이용한 다중 작업, 언어 조건 시각운동 정책으로 증류한다.
- 일반상식 추론과 도구 사용이 필요한 장기 지향 조작을 위한 18개 작업, 5도메인 벤치마크를 도입한다.
- 도메인 무작위화를 통한 성공률 향상 및 실세계 전이를 시연한다.
제안 방법
- LLM이 작업을 하위 작업으로 재귀적으로 분해하고(작업 트리) 6DoF 탐색 원시들에 접지시키는 언어 가이드 데이터 생성.
- 계획을 로봇 유틸리티 호출로 접지하며 샘플링 기반 모션 계획 및 그립/배치 샘플러를 포함한다.
- LLM 유추 성공 함수 코드 조각을 사용해 궤적을 검증하고 재시도 동작을 이끈다.
- 성공한 궤적을 다중 작업의 언어 조건 확산 정책으로 견고하게 증류하며 CLIP 언어 특징, 고유감각 이력, 두 RGB 뷰를 입력으로 받는다.
- 효율적인 확산 기반 정책 추론을 가능하게 하는 DDIM 스케줄러의 사용.
- MuJoCo 기반으로 다섯 도메인의 18개 작업 벤치마크를 평가하며 장기 지향 조작 및 도메인 일반화를 평가한다.
실험 결과
연구 질문
- RQ1언어 가이드 데이터 생성을 통해 자율적 작업 지시 탐색을 6DoF 다양성에 대해 확장할 수 있는가?
- RQ2언어 조건 확산 정책이 성공 라벨링 데이터로부터 다중 작업 시각-언어-모터 정책을 효과적으로 학습할 수 있는가?
- RQ3검증 및 재시도 메커니즘이 데이터 수집의 견고성과 다운스트림 정책 성능을 개선하는가?
- RQ4도메인 무작위화를 통한 실제 세계로의 전이(Sim2Real)는 얼마나 잘 이루어지는가?
주요 결과
- 증류된 정책은 강력한 재시도 동작을 학습하고 다섯 도메인에 걸쳐 평균적으로 절대 성공률을 33.2% 향상시켰다.
- Verify & Retry는 도메인 전반의 성능을 향상시키며, 재시도 없이(no-retry) 인 경우 성능이 크게 떨어질 수 있다(예: 우편함 도메인에서 성공률이 0.0%를 보임).
- 6DoF 탐색은 복잡한 기하학 및 관절 로봇 처리에 도움이 되어 증류를 위한 다양한 데이터를 제공한다.
- 다섯 가지 새로운 물체에 대한 Sim2Real 전이에서 정책이 약 76%의 성공을 달성한다.
- LLM-guided 계획 및 성공 추론을 통한 데이터 생성은 작업 지향적 탐색을 평면적 행동 기준선을 넘어 강화한다.
- 언어 조건을 갖춘 확산 기반 다중 작업 정책은 MLP 기반 디코더 및 비재시_baseline보다 성능이 더 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.