QUICK REVIEW

[논문 리뷰] Scaling Up and Distilling Down: Language-Guided Robot Skill Acquisition

Huy Thuc Ha, Pete Florence|arXiv (Cornell University)|2023. 07. 26.

Robot Manipulation and Learning인용 수 12

한 줄 요약

논문은 6DoF 로봇 원시동작과 검증/재시도 메커니즘이 있는 LLM-가이드 데이터 생성 파이프라인을 사용하여 크고 라벨링된 데이터세트를 생성한 후 이를 다중 작업의 언어 조건 시각-모션 정책으로 증류하여 개선된 성공률과 시뮬레이터-현실 전이(sim-to-real transfer)를 보여준다.

ABSTRACT

We present a framework for robot skill acquisition, which 1) efficiently scale up data generation of language-labelled robot data and 2) effectively distills this data down into a robust multi-task language-conditioned visuo-motor policy. For (1), we use a large language model (LLM) to guide high-level planning, and sampling-based robot planners (e.g. motion or grasp samplers) for generating diverse and rich manipulation trajectories. To robustify this data-collection process, the LLM also infers a code-snippet for the success condition of each task, simultaneously enabling the data-collection process to detect failure and retry as well as the automatic labeling of trajectories with success/failure. For (2), we extend the diffusion policy single-task behavior-cloning approach to multi-task settings with language conditioning. Finally, we propose a new multi-task benchmark with 18 tasks across five domains to test long-horizon behavior, common-sense reasoning, tool-use, and intuitive physics. We find that our distilled policy successfully learned the robust retrying behavior in its data collection procedure, while improving absolute success rates by 33.2% on average across five domains. Code, data, and additional qualitative results are available on https://www.cs.columbia.edu/~huy/scalingup/.

연구 동기 및 목표

LLM-가이드 작업 계획과 6DoF 탐색 원시적 요소를 사용하여 언어로 라벨링된 로봇 데이터의 규모를 확장한다.
추정 성공 함수 및 자동 재시작을 통해 실패로부터 회복하는 데이터 수집의 견고함을 강화한다.
수집된 경험을 확산 모델을 이용한 다중 작업, 언어 조건 시각운동 정책으로 증류한다.
일반상식 추론과 도구 사용이 필요한 장기 지향 조작을 위한 18개 작업, 5도메인 벤치마크를 도입한다.
도메인 무작위화를 통한 성공률 향상 및 실세계 전이를 시연한다.

제안 방법

LLM이 작업을 하위 작업으로 재귀적으로 분해하고(작업 트리) 6DoF 탐색 원시들에 접지시키는 언어 가이드 데이터 생성.
계획을 로봇 유틸리티 호출로 접지하며 샘플링 기반 모션 계획 및 그립/배치 샘플러를 포함한다.
LLM 유추 성공 함수 코드 조각을 사용해 궤적을 검증하고 재시도 동작을 이끈다.
성공한 궤적을 다중 작업의 언어 조건 확산 정책으로 견고하게 증류하며 CLIP 언어 특징, 고유감각 이력, 두 RGB 뷰를 입력으로 받는다.
효율적인 확산 기반 정책 추론을 가능하게 하는 DDIM 스케줄러의 사용.
MuJoCo 기반으로 다섯 도메인의 18개 작업 벤치마크를 평가하며 장기 지향 조작 및 도메인 일반화를 평가한다.

실험 결과

연구 질문

RQ1언어 가이드 데이터 생성을 통해 자율적 작업 지시 탐색을 6DoF 다양성에 대해 확장할 수 있는가?
RQ2언어 조건 확산 정책이 성공 라벨링 데이터로부터 다중 작업 시각-언어-모터 정책을 효과적으로 학습할 수 있는가?
RQ3검증 및 재시도 메커니즘이 데이터 수집의 견고성과 다운스트림 정책 성능을 개선하는가?
RQ4도메인 무작위화를 통한 실제 세계로의 전이(Sim2Real)는 얼마나 잘 이루어지는가?

주요 결과

증류된 정책은 강력한 재시도 동작을 학습하고 다섯 도메인에 걸쳐 평균적으로 절대 성공률을 33.2% 향상시켰다.
Verify & Retry는 도메인 전반의 성능을 향상시키며, 재시도 없이(no-retry) 인 경우 성능이 크게 떨어질 수 있다(예: 우편함 도메인에서 성공률이 0.0%를 보임).
6DoF 탐색은 복잡한 기하학 및 관절 로봇 처리에 도움이 되어 증류를 위한 다양한 데이터를 제공한다.
다섯 가지 새로운 물체에 대한 Sim2Real 전이에서 정책이 약 76%의 성공을 달성한다.
LLM-guided 계획 및 성공 추론을 통한 데이터 생성은 작업 지향적 탐색을 평면적 행동 기준선을 넘어 강화한다.
언어 조건을 갖춘 확산 기반 다중 작업 정책은 MLP 기반 디코더 및 비재시_baseline보다 성능이 더 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.