QUICK REVIEW

[論文レビュー] RT-1: Robotics Transformer for Real-World Control at Scale

Anthony Brohan, Noah Brown|arXiv (Cornell University)|Dec 13, 2022

Advanced Neural Network Applications被引用数 38

ひとこと要約

RT-1は130kの実世界デモンストレーションを用いて大規模な、言語条件付きロボティクストランスフォーマーを訓練し、700+タスクに対するゼロショットおよび少数ショットの一般化を可能にし、実際のキッチンで評価され、堅牢性が高く長期的な計画能力を示します。

ABSTRACT

By transferring knowledge from large, diverse, task-agnostic datasets, modern machine learning models can solve specific downstream tasks either zero-shot or with small task-specific datasets to a high level of performance. While this capability has been demonstrated in other fields such as computer vision, natural language processing or speech recognition, it remains to be shown in robotics, where the generalization capabilities of the models are particularly critical due to the difficulty of collecting real-world robotic data. We argue that one of the keys to the success of such general robotic models lies with open-ended task-agnostic training, combined with high-capacity architectures that can absorb all of the diverse, robotic data. In this paper, we present a model class, dubbed Robotics Transformer, that exhibits promising scalable model properties. We verify our conclusions in a study of different model classes and their ability to generalize as a function of the data size, model size, and data diversity based on a large-scale data collection on real robots performing real-world tasks. The project's website and videos can be found at robotics-transformer1.github.io

研究の動機と目的

大規模で多タスク、言語条件付きのロボットモデルが、現実世界で新しいタスク・物体・環境へ一般化できることを示す。
ロボット工学におけるデータ規模と多様性が一般化性能に与える影響を示す。
RT-1をベースラインと比較し、設計選択をアブレーションして有効な要素を特定する。
異種データソース（シミュレーション、異なるロボット）と長期的なタスク実行の統合を探る。

提案手法

FiLM条件付きEfficientNet-B3を用いて高次元のセンサ入力（画像）と言語指示をコンパクトなトークンへエンコードし、指示埋め込みにはUniversal Sentence Encoderを用いる。
TokenLearnerを用いてトークン数を削減し、リアルタイムのTransformerベースのポリシー実行を可能にする。
画像と言語トークンをアーム、ベース、モード（arm/base/terminate）にわたる離散化されたアクショントークンへマッピングするデコーダ専用Transformerを使用する。
連続アクション空間を各次元256ビンに離散化し、因果クロスエントロピー損失で訓練する。
13台のロボットから17か月にわたり収集した大規模なマルチタスクデータセット（約130kデモンストレーション、約700指示）で訓練する。
見た指示および未見の指示に対する性能、雑音物・背景への頑健性、長期的なタスク列（SayCanで最大約50ステップ）を評価する。

実験結果

リサーチクエスチョン

RQ1RT-1は多数の指示を実行し、未見のタスク・物体・環境へ一般化できるか？
RQ2データ規模、モデルサイズ、データ多様性が現実世界のロボット工学における一般化へ与える影響は？
RQ3異種データソース（シミュレーションや異なるロボットタイプ）が性能と一般化を向上させるか？
RQ4現実的な環境で長期的なタスク列をRT-1はどの程度扱えるか？
RQ5大規模なロボティクストランスフォーマーにおいて、どの設計選択が性能と一般化に最も影響を与えるか？

主な発見

RT-1はseen指示（約200タスク中）で97%の成功を達成し、BC-ZとGatoを25–32ポイント上回る。
未見の指示への一般化は76%の成功率で、次点のベースラインより24ポイント高い。
雑音物（ディストラクタ）に対する頑健性は83%、背景に対しては59%を示し、ベースラインよりそれぞれ36%と18%上回る。
SayCanで最大50ステージの長期タスクをサポートし、現実的なキッチン環境でタスク・物体・環境を横断した強い一般化を示す。
異種データの組み込み（例：シミュレーション、異なるロボット）により、元のタスク性能を維持し、新しいシナリオへの一般化を改善する。
大規模な実世界評価（3,000件以上の試行）において、seen/unseenタスク、雑音物、背景のすべてでベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。