QUICK REVIEW

[논문 리뷰] BridgeData V2: A Dataset for Robot Learning at Scale

Homer Walke, Kevin Black|arXiv (Cornell University)|2023. 08. 24.

Multimodal Machine Learning Applications인용 수 12

한 줄 요약

BridgeData V2는 24개 환경에 걸친 60,096개의 트랙터리(꿀) trajectories를 포함한 대규모 다양성의 공개 로봇 조작 데이터셋으로, 다중 작업, 언어/목표 조건 학습을 확장 가능하게 설계되었고, 여섯 가지의 최첨단 오프라인 방법을 통해 평가되었습니다.

ABSTRACT

We introduce BridgeData V2, a large and diverse dataset of robotic manipulation behaviors designed to facilitate research on scalable robot learning. BridgeData V2 contains 60,096 trajectories collected across 24 environments on a publicly available low-cost robot. BridgeData V2 provides extensive task and environment variability, leading to skills that can generalize across environments, domains, and institutions, making the dataset a useful resource for a broad range of researchers. Additionally, the dataset is compatible with a wide variety of open-vocabulary, multi-task learning methods conditioned on goal images or natural language instructions. In our experiments, we train 6 state-of-the-art imitation learning and offline reinforcement learning methods on our dataset, and find that they succeed on a suite of tasks requiring varying amounts of generalization. We also demonstrate that the performance of these methods improves with more data and higher capacity models, and that training on a greater variety of skills leads to improved generalization. By publicly sharing BridgeData V2 and our pre-trained models, we aim to accelerate research in scalable robot learning methods. Project page at https://rail-berkeley.github.io/bridgedata

연구 동기 및 목표

다양한 작업, 환경, 기관 전반에 걸친 일반화 가능한 정책을 가능하게 하기 위해 대규모의 다양하고 실제적인 로봇 데이터셋의 필요성을 제시한다.
로봇 공학에서 다중 작업, 목표 및 언어 조건 학습을 지원하는 공개 데이터셋을 제공한다.
BridgeData V2의 다재다능함을 입증하기 위해 여러 오프라인 모방학습 및 강화학습 방법을 평가한다.
데이터셋의 크기, 모델 용량, 기술 다양성이 일반화 및 성능에 미치는 영향을 조사한다.
저비용 하드웨어를 활용한 데이터 수집의 교차 기관 일반화 및 실용적 고려 사항을 강조한다.

제안 방법

저가형 WidowX 250 로봇과 RGB-D 및 다수 카메라를 활용한 데이터 수집 설정을 설명한다.
24개 환경과 13개의 기술에 걸쳐 다양한 물체 배열과 작업 하에서 60,096개의 전문가 궤적 및 9,731개의 스크립트 정책 궤적을 수집한다.
자연어 작업 설명으로 궤적을 사후 주석 처리하며, 추가로 목표 이미지나 언어를 통한 열린 어휘 조건화를 지원한다.
목표 조건화된 모방 학습과 언어 조건화 학습(GCBC, D-GCBC, ACT, CRL, LCBC, RT-1)을 포함한 여섯 가지 최첨단 오프라인 학습 방법을 평가한다.
복제 및 교차 실험 활용을 용이하게 하기 위해 전체 구현 세부사항과 학습 데이터 통계를 제공한다.
데이터셋의 크기와 다양성, 그리고 모델 용량이 성능과 일반화에 어떻게 영향을 미치는지 분석한다.

실험 결과

연구 질문

RQ1BridgeData V2에서 목표 및 언어 조건 방법의 폭넓은 범주가 다양한 작업을 학습할 수 있는가?
RQ2BridgeData V2에서 학습된 정책이 새로운 물체와 보지 못한 환경으로 일반화하는가?
RQ3BridgeData V2에서 학습된 정책이 추가 데이터 수집 없이 다른 기관으로 전이될 수 있는가?
RQ4모델 크기, 데이터셋 크기, 기술 다양성이 성능과 일반화에 어떤 영향을 미치는가?
RQ5매우 다양한 다중 작업 데이터가 실험실 간 강건성 향상에 얼마나 기여하는가?

주요 결과

작업	GCBC	D-GCBC	ACT	CRL	LCBC	RT-1
Open drawer	0.4	0.6	0.5	0.4	0.5	1.0
Sweep beans into pile with bar	0.9	0.9	0.9	0.7	0.4	0.6
Fold thin blue cloth over object	0.4	0.7	0.7	0.5	0.5	0.9
Stack green block on yellow block	0.4	0.2	0.3	0.6	0.0	0.0
Put corn in pot	0.9	0.8	0.8	0.8	0.0	0.0
Put carrot on plate	0.7	0.4	0.1	0.0	0.0	0.8
Flip pot upright	0.1	0.1	0.0	0.4	0.4	0.4
Put eggplant in pot	0.1	0.2	0.0	0.0	0.0	0.2
Average	0.49	0.49	0.41	0.42	0.23	0.49
Task	GCBC	D-GCBC	ACT	CRL	LCBC	RT-1
Sweep rice into pile with brush ∗	0.6	0.0	0.3	0.3	0.0	0.1
Fold thick gray cloth over object ∗	0.3	0.6	0.7	0.0	0.0	0.4
Put marker in bowl †	0.6	0.6	0.2	0.7	0.0	0.0
Wipe the table with the cloth ‡	0.6	0.5	0.4	0.6	0.4	0.9
Put the mushroom in the pot ‡	0.7	0.9	0.1	0.7	0.1	0.6
Put the spoon on the cloth ‡	0.8	0.7	0.0	0.8	0.0	1.0
Average	0.60	0.55	0.28	0.52	0.08	0.50
Task	Put carrot on plate	Flip pot upright	Put eggplant in pot	Average
0.7 → 0.3	0.1 → 0.0	0.1 → 0.1	0.30 → 0.13
0.4 → 0.0	0.1 → 0.2	0.2 → 0.2	0.23 → 0.13
0.1 → 0.0	0.0 → 0.0	0.0 → 0.0	0.03 → 0.10
0.0 → 0.3	0.4 → 0.2	0.0 → 0.1	0.13 → 0.20
0.0 → 0.0	0.4 → 0.1	0.0 → 0.0	0.13 → 0.03
0.8 → 0.4	0.4 → 0.6	0.2 → 0.2	0.47 → 0.40

RT-1은 입력 크기 증가, 히스토리 사용, 행동 이산화 등 설계 선택으로seen 작업에서 LCBC 베이스라인보다 일반적으로 더 우수한 성과를 보인다.
목표 조건화 방식의 방법은 유사한 성능을 달성하는 반면, 언어 조건화 방식은 새 물체에 대한 근거 확보 문제로 인해 성능이 저하되는 경향이 있으며, RT-1은 히스토리와 미세한 행동에 더 잘 대처한다.
데이터셋은 보지 못한 작업에서도 비제로(success) 성과를 가능하게 하여 물체, 환경, 작업 전반에 걸친 광범위한 일반화를 시사한다.
교차 기관 평가에서 Lab 2에서 비제로 성공을 보였고, RT-1은 목표 조건화 방법들보다 악화가 작아 교차실험에서의 활용성이 입증되었다.
모델 용량과 데이터셋 크기를 확장하면 성능이 향상되며, 기술 다양성을 늘리면 보지 못한 작업에 대한 일반화가 향상된다.
더 크고 더 다양한 데이터셋과 고용량 모델은 환경과 기관 간 일반화 및 전이성을 더 넓게 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.