[論文レビュー] Real-World Robot Learning with Masked Visual Pre-training
本研究は、MAE を用いた大規模な野外データでの自己監督型視覚事前学習が、凍結エンコーダーポリシーを生み出し、CLIP、ImageNet pre-training、スクラッチからの学習より実世界のロボットタスクで優れており、スケーリング効果が強いことを示している。
In this work, we explore self-supervised visual pre-training on images from diverse, in-the-wild videos for real-world robotic tasks. Like prior work, our visual representations are pre-trained via a masked autoencoder (MAE), frozen, and then passed into a learnable control module. Unlike prior work, we show that the pre-trained representations are effective across a range of real-world robotic tasks and embodiments. We find that our encoder consistently outperforms CLIP (up to 75%), supervised ImageNet pre-training (up to 81%), and training from scratch (up to 81%). Finally, we train a 307M parameter vision transformer on a massive collection of 4.5M images from the Internet and egocentric videos, and demonstrate clearly the benefits of scaling visual pre-training for robot learning.
研究の動機と目的
- 多様で in-the-wild なデータを用いて、現実世界のロボット工学における移植可能な視覚表現の学習を動機づける。
- 大規模 ViT エンコーダを用いたマスクド視覚事前学習が下流のロボット操作タスクを改善することを示す。
- モデルとデータのスケーリングの両方が、現実世界のロボット学習の性能を向上させることを示す。
提案手法
- Ego4D、ImageNet、Epic Kitchens、Something-Something などからなる大規模で多様な画像データセットを構築する。
- 高いマスキング比とエンコーダ-デコーダ設計を用いて、MAE による視覚エンコーダの事前学習を行う。
- MAE バックボーンエンコーダを固定し、タスクごとに 20–80 のデモンストレーションを用いたビヘイビア・クローンで上位の制御ポリシーを学習する。
- 307M パラメータまでの Vision Transformer (ViT) バックボーンを用いて、モデルサイズとデータ規模の影響を検討する。
- 凍結された画像特徴と本体感覚状態を組み合わせて、関節角度のデルタを予測するコントローラーを学習する。
- 手首カメラを用い、深度情報なしで、7-DoF アームに対して 981 件の実世界実験で評価する。
実験結果
リサーチクエスチョン
- RQ1多様な実世界データを用いた MAE ベースの自己監督型事前学習は、 embodiment を超えて実世界のロボットタスクへ転移する表現を生み出すか?
- RQ2エンコーダを固定した場合、モデルサイズとデータスケールは実世界のロボット学習にどう影響するか?
- RQ3提案手法は、CLIP、教師あり ImageNet 事前学習、スクラッチからの学習と実世界のロボットタスクでどう比較されるか?
- RQ4センサ設定(カメラの視点)と入力モダリティが転移性能に与える影響は?
- RQ5下流タスクにおけるサンプル効率(デモンストレーションの回数)の意味は?
主な発見
| モデル / 設定 | パラメータ | タスク性能(PickFruit コンテキスト) |
|---|---|---|
| R3M (video-text) | 23 M | 31.3% |
| CLIP (image-text) | 86 M | 18.8% |
| Ours (image-only) ViT-S | 22 M | 68.8% |
| Ours (image-only) ViT-B | 86 M | 93.8% |
| Ours (image-only) ViT-L | 307 M | 100.0% |
- MAE 事前学習からのエンコーダ表現は、下流タスクで CLIP、教師あり ImageNet、スクラッチのベースラインを最大で 75–81% 上回る。
- モデルサイズのスケーリング(ViT-S から ViT-Large)とデータ量のスケーリング(HoI 対 Ego4D+ImageNet+HoI)は測定可能な利得を生み、難しいタスクほど大きな利得をもたらす。
- 凍結した MAE エンコーダを使用するとサンプル効率が向上し、ベースラインの約半数のデモンストレーションで高い性能を達成する。
- 4.5M 枚の画像で訓練した 307M パラメータの ViT エンコーダが最良の実世界結果を達成し、データ規模の利点を強調している。
- 動画-言語データで訓練された同時期の R3M モデルと比較して、画像のみの自己監督アプローチは大幅に上回る(例: ViT-B の PickFruit で 68.8% 対 31.3%)。
- カメラの選択は重要: 手首に取り付けた一人称視点は、詳細な位置推定において三人称視点より優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。