[論文レビュー] BridgeData V2: A Dataset for Robot Learning at Scale
BridgeData V2 is a large, diverse publicly available robotic manipulation dataset (60,096 trajectories across 24 environments) designed to enable scalable, multi-task, and language/goal-conditioned robot learning, evaluated across six state-of-the-art offline methods.
We introduce BridgeData V2, a large and diverse dataset of robotic manipulation behaviors designed to facilitate research on scalable robot learning. BridgeData V2 contains 60,096 trajectories collected across 24 environments on a publicly available low-cost robot. BridgeData V2 provides extensive task and environment variability, leading to skills that can generalize across environments, domains, and institutions, making the dataset a useful resource for a broad range of researchers. Additionally, the dataset is compatible with a wide variety of open-vocabulary, multi-task learning methods conditioned on goal images or natural language instructions. In our experiments, we train 6 state-of-the-art imitation learning and offline reinforcement learning methods on our dataset, and find that they succeed on a suite of tasks requiring varying amounts of generalization. We also demonstrate that the performance of these methods improves with more data and higher capacity models, and that training on a greater variety of skills leads to improved generalization. By publicly sharing BridgeData V2 and our pre-trained models, we aim to accelerate research in scalable robot learning methods. Project page at https://rail-berkeley.github.io/bridgedata
研究の動機と目的
- 大規模で多様な実世界ロボットデータセットの必要性を動機づけ、タスク・環境・機関を跨る一般化可能なポリシーを可能にする。
- ロボティクスにおけるマルチタスク、ゴール条件付けおよび言語条件付け学習をサポートする公開データセットを提供する。
- BridgeData V2の汎用性を、複数のオフライン模倣学習および強化学習法を評価することで示す。
- データセットの規模、モデル容量、スキルの多様性が一般化と性能に与える影響を調査する。
- 低コストのハードウェアでのデータ収集に関する実務的な考慮事項と、機関横断の一般化を強調する。
提案手法
- RGB-Dと複数カメラを備えた低コストのWidowX 250ロボットでのデータ収集セットアップを説明する。
- 24環境および13スキルの下で、 varied object arrangements and tasks の下で、60,096 の専門家軌跡と 9,731 の scripted-policy 軌跡を収集する。
- 後処理で自然言語のタスク説明で軌跡を注釈付けする;さらにゴール画像や言語によるオープン Vocabulary 条件付けをサポートする。
- ゴール条件付き模倣学習および言語条件付き学習(GCBC、D-GCBC、ACT、CRL、LCBC、RT-1)を含む6つの最先端オフライン学習法を評価する。
- 再現性とラボ間利用を促進するための実装の全詳細とトレーニングデータ統計を提供する。
- データセットの規模と多様性、ならびにモデル容量が性能と一般化に与える影響を分析する。
実験結果
リサーチクエスチョン
- RQ1BridgeData V2から豊富なゴール条件付けと言語条件付けの手法の広範な範囲が多様なタスクを学習できるか?
- RQ2BridgeData V2で訓練されたポリシーは新規オブジェクトや未知の環境に一般化できるか?
- RQ3BridgeData V2で訓練されたポリシーは追加データ収集なしで別機関へ移行できるか?
- RQ4モデルサイズ、データセットサイズ、スキルの多様性は性能と一般化にどのように影響するか?
- RQ5非常に多様でマルチタスクなデータの有用性はラボ間のロバスト性向上に寄与するか?
主な発見
| Task | GCBC | D-GCBC | ACT | CRL | LCBC | RT-1 |
|---|---|---|---|---|---|---|
| Open drawer | 0.4 | 0.6 | 0.5 | 0.4 | 0.5 | 1.0 |
| Sweep beans into pile with bar | 0.9 | 0.9 | 0.9 | 0.7 | 0.4 | 0.6 |
| Fold thin blue cloth over object | 0.4 | 0.7 | 0.7 | 0.5 | 0.5 | 0.9 |
| Stack green block on yellow block | 0.4 | 0.2 | 0.3 | 0.6 | 0.0 | 0.0 |
| Put corn in pot | 0.9 | 0.8 | 0.8 | 0.8 | 0.0 | 0.0 |
| Put carrot on plate | 0.7 | 0.4 | 0.1 | 0.0 | 0.0 | 0.8 |
| Flip pot upright | 0.1 | 0.1 | 0.0 | 0.4 | 0.4 | 0.4 |
| Put eggplant in pot | 0.1 | 0.2 | 0.0 | 0.0 | 0.0 | 0.2 |
| Average | 0.49 | 0.49 | 0.41 | 0.42 | 0.23 | 0.49 |
| Task | GCBC | D-GCBC | ACT | CRL | LCBC | RT-1 |
| Sweep rice into pile with brush ∗ | 0.6 | 0.0 | 0.3 | 0.3 | 0.0 | 0.1 |
| Fold thick gray cloth over object ∗ | 0.3 | 0.6 | 0.7 | 0.0 | 0.0 | 0.4 |
| Put marker in bowl † | 0.6 | 0.6 | 0.2 | 0.7 | 0.0 | 0.0 |
| Wipe the table with the cloth ‡ | 0.6 | 0.5 | 0.4 | 0.6 | 0.4 | 0.9 |
| Put the mushroom in the pot ‡ | 0.7 | 0.9 | 0.1 | 0.7 | 0.1 | 0.6 |
| Put the spoon on the cloth ‡ | 0.8 | 0.7 | 0.0 | 0.8 | 0.0 | 1.0 |
| Average | 0.60 | 0.55 | 0.28 | 0.52 | 0.08 | 0.50 |
| Task | Put carrot on plate | Flip pot upright | Put eggplant in pot | Average | ||
| 0.7 → 0.3 | 0.1 → 0.0 | 0.1 → 0.1 | 0.30 → 0.13 | |||
| 0.4 → 0.0 | 0.1 → 0.2 | 0.2 → 0.2 | 0.23 → 0.13 | |||
| 0.1 → 0.0 | 0.0 → 0.0 | 0.0 → 0.0 | 0.03 → 0.10 | |||
| 0.0 → 0.3 | 0.4 → 0.2 | 0.0 → 0.1 | 0.13 → 0.20 | |||
| 0.0 → 0.0 | 0.4 → 0.1 | 0.0 → 0.0 | 0.13 → 0.03 | |||
| 0.8 → 0.4 | 0.4 → 0.6 | 0.2 → 0.2 | 0.47 → 0.40 |
- RT-1は、入力サイズの拡大・履歴の活用・アクションの離散化といった設計上の選択により、見たタスクでLCBCベースラインより総じて優れている。
- ゴール条件付けの手法は同等の性能を達成する一方、言語条件付けの手法は未見のオブジェクトに対するグラウンディングの問題で苦戦するが、RT-1は履歴と細かなアクションをより上手く扱う。
- 本データセットは、未知のタスクでも非ゼロの成功を可能にし、オブジェクト・環境・タスクを横断する広範な一般化を示す。
- 機関横断評価ではLab 2で非ゼロの成功を示し、RT-1はゴール条件付け法のいくつかよりも劣化が小さいことを示し、跨ラボの有用性を示す。
- モデル容量とデータセットサイズを拡大すると性能が向上し、スキル多様性を増やす(13スキル対3スキル)と未知タスクへの一般化が強化される。
- より大規模で多様なデータセットと高容量モデルは、より広範な一般化と環境・機関間の移転を支える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。