QUICK REVIEW

[논문 리뷰] RoboGen: Towards Unleashing Infinite Data for Automated Robot Learning via Generative Simulation

Yufei Wang, Zhou Xian|arXiv (Cornell University)|2023. 11. 02.

Reinforcement Learning in Robotics인용 수 9

한 줄 요약

RoboGen은 기초 모델을 활용하여 작업을 제안하고, 장면과 학습 감독을 생성하며, 규모 확장 가능한 로봇 기술을 학습하는 완전 자동화된 생성 파이프라인으로, 시뮬레이션에서 지속적이고 다양한 기술 시연을 가능하게 한다.

ABSTRACT

We present RoboGen, a generative robotic agent that automatically learns diverse robotic skills at scale via generative simulation. RoboGen leverages the latest advancements in foundation and generative models. Instead of directly using or adapting these models to produce policies or low-level actions, we advocate for a generative scheme, which uses these models to automatically generate diversified tasks, scenes, and training supervisions, thereby scaling up robotic skill learning with minimal human supervision. Our approach equips a robotic agent with a self-guided propose-generate-learn cycle: the agent first proposes interesting tasks and skills to develop, and then generates corresponding simulation environments by populating pertinent objects and assets with proper spatial configurations. Afterwards, the agent decomposes the proposed high-level task into sub-tasks, selects the optimal learning approach (reinforcement learning, motion planning, or trajectory optimization), generates required training supervision, and then learns policies to acquire the proposed skill. Our work attempts to extract the extensive and versatile knowledge embedded in large-scale models and transfer them to the field of robotics. Our fully generative pipeline can be queried repeatedly, producing an endless stream of skill demonstrations associated with diverse tasks and environments.

연구 동기 및 목표

수작업으로 설계된 작업 및 감독을 넘어서 확장 가능한 로봇 기술 학습을 촉진한다.
기초 모델 및 생성 모델을 활용하여 자동으로 다양한 작업, 장면, 학습 신호를 생성한다.
고수준 작업을 하위 작업 및 학습 전략에 매핑하는 자가 주도형 제안–생성–학습 사이클을 만든다.
인간 입력을 최소화한 채 무한하고 다양한 기술 시연을 생성하는 완전 생성 파이프라인을 시연한다.

제안 방법

작업 제안: 로봇 유형과 샘플링된 물체를 조건으로 다양한 고수준 작업을 생성하기 위해 LLM(GPT-4)을 사용한다.
장면 생성: LLM에 질의하고 Objaverse/PartNetMobility에서 자산을 검색하며 비전-언어 모델로 검증하여 장면 자산과 구성을 생성한다.
학습 감독 생성: 작업을 하위 작업으로 분해하고 학습 알고리즘을 선택하며 보상 함수 및 행동 공간을 GPT-4의 안내로 생성한다.
스킬 학습: 작업 유형에 따라 RL(SAC), 모션 계획(BIT*), 그래디언트 기반 궤적 최적화 및 모션 계획이 포함된 동작 프리미티브를 혼합하여 학습한다.
시스템 통합: 네 가지 단계을 미분 가능하고 엔드투엔드의 생성 파이프라인으로 결합하여 무한히 질의할 수 있도록 한다.

실험 결과

연구 질문

RQ1RoboGen이 수작업으로 작성된 벤치마크를 능가하는 다양하고 타당한 작업을 생성할 수 있는가?
RQ2생성된 장면이 자산 유효성 및 공간 배치 측면에서 제안된 작업과 일치하는가?
RQ3자동으로 생성된 학습 감독이 강체, 변형 가능체, 보행 등의 다양한 도메인에서 스 skills 학습을 효과적으로 가이드하는가?
RQ4여러 학습 패러다임의 통합이 긴 시나리오 작업의 성공률을 높이는가?
RQ5완전 자동화된 파이프라인이 규모 확장에 따라 의미 있고 다양한 로봇 기술을 생산할 수 있는가?

주요 결과

RoboGen은 Self-BLEU 및 임베딩 유사도로 측정한 여러 수작업 벤치마크보다 더 높은 작업 다양성을 달성한다.
BLIP-2 점수로 확인된 대로 객체 및 크기 검증이 장면의 유효성을 크게 향상시킨다.
자동으로 생성된 학습 분해 및 보상이 장기 시나리오 작업에서 관찰 가능한 스킬 학습을 얻는다.
다중 학습 알고리즘(RL, 궤적 최적화, 계획)을 허용하면 관절형 물체 작업에서 RL만의 기준선보다 성능이 향상된다.
시스템은 강체, 관절형, 변형 가능 물체 조작 및 이동에서 다양한 기술의 연속적인 스트림을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.