[논문 리뷰] RT-1: Robotics Transformer for Real-World Control at Scale
RT-1은 130k개의 실제 세계 시연으로 대규모 언어 조건 로봇 트랜스포머를 학습하여 700+개의 작업에 대해 제로샷 및 프름샷 일반화를 가능하게 하며, 실제 주방에서 강건성 및 긴 시퀀스 능력을 평가합니다.
By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance. While this capability has been demonstrated in other fields such as computer vision, natural language processing or speech recognition, it remains to be shown in robotics, where the generalization capabilities of the models are particularly critical due to the difficulty of collecting real-world robotic data. We argue that one of the keys to the success of such general robotic models lies with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the diverse, robotic data. In this paper, we present a model class, dubbed Robotics Transformer, that exhibits promising scalable model properties. We verify our conclusions in a study of different model classes and their ability to generalize as a function of the data size, model size, and data diversity based on a large-scale data collection on real robots performing real-world tasks. The project's website and videos can be found at robotics-transformer1.github.io
연구 동기 및 목표
- 대규모 다중 작업, 언어 조건 로봇 모델이 실제 세계에서 새로운 작업, 물체 및 환경으로 일반화할 수 있음을 입증한다.
- 로보틱스에서 데이터 규모와 다양성이 일반화에 미치는 영향을 보여준다.
- 베이스라인과 비교 및 설계 선택의 영향 확인을 위한 RT-1의 평가 및 특정 구성 요소의 제거 실험(ablations)을 수행한다.
- 이질적 데이터 소스(시뮬레이션, 서로 다른 로봇)와 긴 호(Task) 실행의 통합을 탐구한다.
제안 방법
- FiLM-조건 EfficientNet-B3를 사용하여 고차원 센서 입력(이미지)과 언어 지시를 컴팩트 토큰으로 인코딩하고, 지시 임베딩은 Universal Sentence Encoder를 사용한다.
- TokenLearner를 통해 토큰 수를 줄여 트랜스포머 기반 정책의 실시간 실행을 가능하게 한다.
- 이미지-언어 토큰을 축소한 뒤 암/베이스/모드(암/베이스/종료) 간의 이산화된 행동 토큰으로 매핑하는 디코더 전용 트랜스포머를 사용한다.
- 연속 행동 공간을 차원당 256개의 구간으로 이산화하고 인과적 교차엔트로피 손실로 학습한다.
- 약 130k 시연/약 700 지시어의 대규모 다중 작업 데이터셋을 13대 로봇에서 17개월 간 수집하여 학습한다.
- 보기 및 보이지 않는 지시, 방해 요인/배경에 대한 강건성, SayCan에서 최대 약 50단계의 긴 호 작업 시퀀스에 대한 성능 평가를 수행한다.
실험 결과
연구 질문
- RQ1RT-1이 많은 수의 지시를 수행하고 보지 못한 작업, 물체 및 환경으로 일반화할 수 있는가?
- RQ2데이터 규모, 모델 크기 및 데이터 다양성이 실제 로보틱스의 일반화에 미치는 영향은 무엇인가?
- RQ3이질적 데이터 소스(시뮬레이션 또는 서로 다른 로봇 유형)가 성능과 일반화를 향상시킬 수 있는가?
- RQ4실세계 설정에서 긴 호 작업 시퀀스를 RT-1이 얼마나 잘 처리하는가?
- RQ5대규모 로봇 트랜스포머의 성능과 일반화에 가장 큰 영향을 주는 설계 선택은 무엇인가?
주요 결과
- RT-1은 보이는 지시에서 97%의 성공률을 달성하며(약 200개의 작업 중), BC-Z 및 Gato보다 25–32포인트 높은 성과를 보인다.
- RT-1은 보지 못한 지시에서도 76%의 성공으로 일반화하며, 다음으로 좋은 베이스라인 대비 24포인트 높다.
- RT-1은 방해 요인(83%)과 배경(59%)에 대한 강건성을 보이며, 베이스라인보다 각각 36%와 18% 앞선다.
- RT-1은 SayCan에서 최대 50단계의 긴 호 작업을 지원하고 실제 주방에서 작업 간, 물체 간, 환경 간에 강건한 일반화를 보인다.
- 이질적 데이터를 도입(예: 시뮬레이션, 서로 다른 로봇)하면 원래 작업 성능을 유지하고 새로운 시나리오로의 일반화가 향상된다.
- 실세계 대규모 평가(3,000회 이상 실험)에서 보이는/보이지 않는 작업, 방해 요인, 배경에 대해 베이스라인을 앞선다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.