[논문 리뷰] BridgeData V2: A Dataset for Robot Learning at Scale
BridgeData V2는 24개 환경에 걸친 60,096개의 트랙터리(꿀) trajectories를 포함한 대규모 다양성의 공개 로봇 조작 데이터셋으로, 다중 작업, 언어/목표 조건 학습을 확장 가능하게 설계되었고, 여섯 가지의 최첨단 오프라인 방법을 통해 평가되었습니다.
We introduce BridgeData V2, a large and diverse dataset of robotic manipulation behaviors designed to facilitate research on scalable robot learning. BridgeData V2 contains 60,096 trajectories collected across 24 environments on a publicly available low-cost robot. BridgeData V2 provides extensive task and environment variability, leading to skills that can generalize across environments, domains, and institutions, making the dataset a useful resource for a broad range of researchers. Additionally, the dataset is compatible with a wide variety of open-vocabulary, multi-task learning methods conditioned on goal images or natural language instructions. In our experiments, we train 6 state-of-the-art imitation learning and offline reinforcement learning methods on our dataset, and find that they succeed on a suite of tasks requiring varying amounts of generalization. We also demonstrate that the performance of these methods improves with more data and higher capacity models, and that training on a greater variety of skills leads to improved generalization. By publicly sharing BridgeData V2 and our pre-trained models, we aim to accelerate research in scalable robot learning methods. Project page at https://rail-berkeley.github.io/bridgedata
연구 동기 및 목표
- 다양한 작업, 환경, 기관 전반에 걸친 일반화 가능한 정책을 가능하게 하기 위해 대규모의 다양하고 실제적인 로봇 데이터셋의 필요성을 제시한다.
- 로봇 공학에서 다중 작업, 목표 및 언어 조건 학습을 지원하는 공개 데이터셋을 제공한다.
- BridgeData V2의 다재다능함을 입증하기 위해 여러 오프라인 모방학습 및 강화학습 방법을 평가한다.
- 데이터셋의 크기, 모델 용량, 기술 다양성이 일반화 및 성능에 미치는 영향을 조사한다.
- 저비용 하드웨어를 활용한 데이터 수집의 교차 기관 일반화 및 실용적 고려 사항을 강조한다.
제안 방법
- 저가형 WidowX 250 로봇과 RGB-D 및 다수 카메라를 활용한 데이터 수집 설정을 설명한다.
- 24개 환경과 13개의 기술에 걸쳐 다양한 물체 배열과 작업 하에서 60,096개의 전문가 궤적 및 9,731개의 스크립트 정책 궤적을 수집한다.
- 자연어 작업 설명으로 궤적을 사후 주석 처리하며, 추가로 목표 이미지나 언어를 통한 열린 어휘 조건화를 지원한다.
- 목표 조건화된 모방 학습과 언어 조건화 학습(GCBC, D-GCBC, ACT, CRL, LCBC, RT-1)을 포함한 여섯 가지 최첨단 오프라인 학습 방법을 평가한다.
- 복제 및 교차 실험 활용을 용이하게 하기 위해 전체 구현 세부사항과 학습 데이터 통계를 제공한다.
- 데이터셋의 크기와 다양성, 그리고 모델 용량이 성능과 일반화에 어떻게 영향을 미치는지 분석한다.
실험 결과
연구 질문
- RQ1BridgeData V2에서 목표 및 언어 조건 방법의 폭넓은 범주가 다양한 작업을 학습할 수 있는가?
- RQ2BridgeData V2에서 학습된 정책이 새로운 물체와 보지 못한 환경으로 일반화하는가?
- RQ3BridgeData V2에서 학습된 정책이 추가 데이터 수집 없이 다른 기관으로 전이될 수 있는가?
- RQ4모델 크기, 데이터셋 크기, 기술 다양성이 성능과 일반화에 어떤 영향을 미치는가?
- RQ5매우 다양한 다중 작업 데이터가 실험실 간 강건성 향상에 얼마나 기여하는가?
주요 결과
| 작업 | GCBC | D-GCBC | ACT | CRL | LCBC | RT-1 |
|---|---|---|---|---|---|---|
| Open drawer | 0.4 | 0.6 | 0.5 | 0.4 | 0.5 | 1.0 |
| Sweep beans into pile with bar | 0.9 | 0.9 | 0.9 | 0.7 | 0.4 | 0.6 |
| Fold thin blue cloth over object | 0.4 | 0.7 | 0.7 | 0.5 | 0.5 | 0.9 |
| Stack green block on yellow block | 0.4 | 0.2 | 0.3 | 0.6 | 0.0 | 0.0 |
| Put corn in pot | 0.9 | 0.8 | 0.8 | 0.8 | 0.0 | 0.0 |
| Put carrot on plate | 0.7 | 0.4 | 0.1 | 0.0 | 0.0 | 0.8 |
| Flip pot upright | 0.1 | 0.1 | 0.0 | 0.4 | 0.4 | 0.4 |
| Put eggplant in pot | 0.1 | 0.2 | 0.0 | 0.0 | 0.0 | 0.2 |
| Average | 0.49 | 0.49 | 0.41 | 0.42 | 0.23 | 0.49 |
| Task | GCBC | D-GCBC | ACT | CRL | LCBC | RT-1 |
| Sweep rice into pile with brush ∗ | 0.6 | 0.0 | 0.3 | 0.3 | 0.0 | 0.1 |
| Fold thick gray cloth over object ∗ | 0.3 | 0.6 | 0.7 | 0.0 | 0.0 | 0.4 |
| Put marker in bowl † | 0.6 | 0.6 | 0.2 | 0.7 | 0.0 | 0.0 |
| Wipe the table with the cloth ‡ | 0.6 | 0.5 | 0.4 | 0.6 | 0.4 | 0.9 |
| Put the mushroom in the pot ‡ | 0.7 | 0.9 | 0.1 | 0.7 | 0.1 | 0.6 |
| Put the spoon on the cloth ‡ | 0.8 | 0.7 | 0.0 | 0.8 | 0.0 | 1.0 |
| Average | 0.60 | 0.55 | 0.28 | 0.52 | 0.08 | 0.50 |
| Task | Put carrot on plate | Flip pot upright | Put eggplant in pot | Average | ||
| 0.7 → 0.3 | 0.1 → 0.0 | 0.1 → 0.1 | 0.30 → 0.13 | |||
| 0.4 → 0.0 | 0.1 → 0.2 | 0.2 → 0.2 | 0.23 → 0.13 | |||
| 0.1 → 0.0 | 0.0 → 0.0 | 0.0 → 0.0 | 0.03 → 0.10 | |||
| 0.0 → 0.3 | 0.4 → 0.2 | 0.0 → 0.1 | 0.13 → 0.20 | |||
| 0.0 → 0.0 | 0.4 → 0.1 | 0.0 → 0.0 | 0.13 → 0.03 | |||
| 0.8 → 0.4 | 0.4 → 0.6 | 0.2 → 0.2 | 0.47 → 0.40 |
- RT-1은 입력 크기 증가, 히스토리 사용, 행동 이산화 등 설계 선택으로seen 작업에서 LCBC 베이스라인보다 일반적으로 더 우수한 성과를 보인다.
- 목표 조건화 방식의 방법은 유사한 성능을 달성하는 반면, 언어 조건화 방식은 새 물체에 대한 근거 확보 문제로 인해 성능이 저하되는 경향이 있으며, RT-1은 히스토리와 미세한 행동에 더 잘 대처한다.
- 데이터셋은 보지 못한 작업에서도 비제로(success) 성과를 가능하게 하여 물체, 환경, 작업 전반에 걸친 광범위한 일반화를 시사한다.
- 교차 기관 평가에서 Lab 2에서 비제로 성공을 보였고, RT-1은 목표 조건화 방법들보다 악화가 작아 교차실험에서의 활용성이 입증되었다.
- 모델 용량과 데이터셋 크기를 확장하면 성능이 향상되며, 기술 다양성을 늘리면 보지 못한 작업에 대한 일반화가 향상된다.
- 더 크고 더 다양한 데이터셋과 고용량 모델은 환경과 기관 간 일반화 및 전이성을 더 넓게 지원한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.