[論文レビュー] Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation
PerAct は言語条件付きの Perceiver Transformer を用いて voxelized 3D 観測から 6-DoF 操作を学習し、限られたデモンストレーションで 18 のシミュレート RLBench タスクと 7 実世界タスクで単一のマルチタスク BC エージェントを訓練可能にする。
Transformers have revolutionized vision and natural language processing with their ability to scale with large datasets. But in robotic manipulation, data is both limited and expensive. Can manipulation still benefit from Transformers with the right problem formulation? We investigate this question with PerAct, a language-conditioned behavior-cloning agent for multi-task 6-DoF manipulation. PerAct encodes language goals and RGB-D voxel observations with a Perceiver Transformer, and outputs discretized actions by ``detecting the next best voxel action''. Unlike frameworks that operate on 2D images, the voxelized 3D observation and action space provides a strong structural prior for efficiently learning 6-DoF actions. With this formulation, we train a single multi-task Transformer for 18 RLBench tasks (with 249 variations) and 7 real-world tasks (with 18 variations) from just a few demonstrations per task. Our results show that PerAct significantly outperforms unstructured image-to-action agents and 3D ConvNet baselines for a wide range of tabletop tasks.
研究の動機と目的
- データが高価で限られているロボット操作のために、Transformers のデータ効率的な活用を動機づける。
- 言語 grounding を活用して挙動模倣を条件付ける voxel ベースの、アクション中心の定式化を提案する。
- RGB-D ボクセル観察と言語目標から離散化された 6-DoF アクションを予測する PerAct を開発する。
- データ効率と一般化を示すために、シミュレーテッド(RLBench)と実世界タスクの広範なスイートでアプローチを評価する。
提案手法
- 言語目標を事前学習済み言語モデル(CLIP)でエンコードし、RGB-D ボクセルパッチのエンコーディングと融合する。
- 観測とアクションを 3D ボクセルグリッドとして表現し、6-DoF 操作のための 3D 構造を活用する。
- ボクセル観測を 3D パッチに分割し、潜在ベクトルの集合を持つ Perceiver Transformer を介して高次元入力を処理する。
- 離散化された平行移動、回転、グリッパー開閉、衝突回避アクションを次善の行動分類器として予測する。
- observe-act ループでモーションプランナーを介してアクションを実行し、タスク完了まで次のアクションを繰り返し予測する。
- demonstrations から抽出されたキーフレームアクションに対して、各アクション成分のクロスエントロピー損失を用いて教師あり学習で PerAct を訓練する。
実験結果
リサーチクエスチョン
- RQ1ボクセル化された観測と言語目標からデータ効率的なマルチタスク 6-DoF 操作を学習できる Transformer ベースのエージェントは存在するか?
- RQ2グローバル受容野を持つ Transformer(Perceiver)は、操作タスクにおける局所受容野の 3D CNN ベースラインより優れているか?
- RQ3提案された言語条件付きのボクセルベース BC アプローチは、限られたデモンストレーションで実際のロボットハードウェア上で実現可能か?
主な発見
- PerAct は 18 の RLBench タスク(シミュレーション)と 7 実世界タスクで、比較的少ないデモンストレーションを用いて、画像からアクションへのベースラインや 3D-ConvNet ベースラインを著しく上回る。
- ボクセルベースの、アクション中心の定式化と Perceiver Transformer は、グローバル受容野と多視点融合を活用して頑健な 6-DoF アクション予測を実現する。
- 言語条件付けは必須で、言語条件を外すと性能はほぼ偶然レベルに落ちる。
- アブレーションは Perceiver バックボーンと carefully selected keyframes が良い性能に重要であることを示し、単純または固定の keyframes は結果を劣化させる。
- Perceiver ラテンツの数を増やし、ボクセル解像度を上げると概して性能が向上し、回転摂動は堅牢性を高める。
- 実ロボット実験は、53 デモンストレーションで7タスクに有意義な成功を達成できることを示し、過度な事前学習なしの sim-to-real 実現性を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。