[논문 리뷰] GenSim: Generating Robotic Simulation Tasks via Large Language Models
GenSim은 GPT-4 및 기타 LLM을 사용하여 다양한 로봇 시뮬레이션 작업과 시연을 자동으로 생성하고, 다중 작업 정책 학습을 가능하게 하여 작업 수준 일반화 및 시뮬레이션-현실 전이(sim-to-real transfer)를 개선한다.
Collecting large amounts of real-world interaction data to train general robotic policies is often prohibitively expensive, thus motivating the use of simulation data. However, existing methods for data generation have generally focused on scene-level diversity (e.g., object instances and poses) rather than task-level diversity, due to the human effort required to come up with and verify novel tasks. This has made it challenging for policies trained on simulation data to demonstrate significant task-level generalization. In this paper, we propose to automatically generate rich simulation environments and expert demonstrations by exploiting a large language models' (LLM) grounding and coding ability. Our approach, dubbed GenSim, has two modes: goal-directed generation, wherein a target task is given to the LLM and the LLM proposes a task curriculum to solve the target task, and exploratory generation, wherein the LLM bootstraps from previous tasks and iteratively proposes novel tasks that would be helpful in solving more complex tasks. We use GPT4 to expand the existing benchmark by ten times to over 100 tasks, on which we conduct supervised finetuning and evaluate several LLMs including finetuned GPTs and Code Llama on code generation for robotic simulation tasks. Furthermore, we observe that LLMs-generated simulation programs can enhance task-level generalization significantly when used for multitask policy training. We further find that with minimal sim-to-real adaptation, the multitask policies pretrained on GPT4-generated simulation tasks exhibit stronger transfer to unseen long-horizon tasks in the real world and outperform baselines by 25%. See the project website (https://liruiw.github.io/gensim) for code, demos, and videos.
연구 동기 및 목표
- 다양하고 달성 가능한 시뮬레이션 작업을 만들기 위해 LLM을 활용하여 수작업으로인한 작업 설계 노력을 줄이려는 동기를 부여한다.
- 작업 다양성을 확장하기 위해 목표 지향적(goal-directed) 및 탐색적(exploratory) 두 모드의 작업 생성 파이프라인을 개발한다.
- 검증 및 파인튜닝을 위한 고품질 작업을 캐시하고 재활용하기 위한 작업 라이브러리를 만든다.
- LLM생성 작업에서의 학습이 작업 수준 일반화를 향상시킨다.
- 로봇 시뮬레이션 맥락에서 코드 생성을 위한 LLM(GPT-4, GPT-3.5, Code Llama)을 평가하고 시뮬레이션-현실 전이를 분석한다.
제안 방법
- 장면 및 시연 생성을 위한 태스크 설명과 해당 코드를 출력하는 두 모드 태스크 생성기를 제안한다.
- 검색 증강 생성을 가능하게 하고 향후 사용을 위해 검증된 작업을 저장하기 위해 작업 라이브러리를 사용한다.
- LLM 크리틱과의 반성 및 검증 루프를 적용하여 라이브러리에 추가하기 전에 작업 품질을 평가한다.
- 작업 라이브러리 작업에서 생성된 시연을 사용하여 언어 조건의 다중 작업 정책을 학습시킨다.
- 시뮬레이션 및 실제 세계 전이에서 작업 생성 품질과 정책 일반화에 대해 다수의 LLM 및 미세조정된 변형을 평가한다.
실험 결과
연구 질문
- RQ1LLM은 다양하고 고품질의 로봇 시뮬레이션 작업 및 시연을 설계하고 구현할 수 있는가?
- RQ2LLM-생성 작업에서의 학습이 인간이 큐레이션한 작업만 사용하는 것과 비교하여 정책의 작업 수준 일반화를 향상시킬 수 있는가?
- RQ3다양한 LLM-생성 시뮬레이션에 대한 사전 학습이 장기 과제의 시뮬레이션-현실 전이를 향상시키는가?
- RQ4목표 지향적(goal-directed) 및 탐색적(exploratory) 생성 모드가 정책 학습을 위한 유용한 작업 커리큘럼 생성을 어떻게 비교하는가?
주요 결과
- LLMs, 특히 GPT-4는 기존 작업에서 부트스트래핑하여 고품질의 달성 가능하고 다양한 시뮬레이션 작업을 생성할 수 있다.
- GenSim 작업 데이터로 오픈소스 LLM을 미세조정하면 생성 성능이 향상되고; GPT-4 기반 작업은 도메인 내 및 제로샷 일반화를 향상시킨다.
- GPT-4-생성 작업으로 학습된 다중 작업 정책은 도메인 내 일반화가 50% 이상 증가하고 시뮬레이션에서 상당한 제로샷 전이감을 보인다.
- 최소한의 시뮬레이션-현실 적응으로 GPT-4 작업에서 사전 학습된 정책은 보지 않은 실제 작업으로의 전이가 더 나아 baselines보다 약 25% 더 높은 성능을 보인다.
- 생성된 더 큰 작업 세트(예: 70개 작업)에서의 사전 학습은 실제 세계의 장기간 과제에서 주목할 만한 강건성을 보인다(예: build-wheel).
- 시뮬레이션 학습에서의 작업 다양성은 적응 후 실제 세계에 대한 적응성을 약 25% 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.