[論文レビュー] R3M: A Universal Visual Representation for Robot Manipulation
R3Mは、多様な人間ビデオ(Ego4D)から時間対比学習、動画と言語の整合、スパーシティを用いて再利用可能な視覚表現を事前学習し、シミュレーションと実世界のタスクを横断するデータ効率の良い下流ロボット操作を可能にします。12タスクでCLIP、ImageNet、MoCoのベースラインを上回り、わずか20件のデモンストレーションから現実世界の学習を可能にします。
We study how visual representations pre-trained on diverse human video data can enable data-efficient learning of downstream robotic manipulation tasks. Concretely, we pre-train a visual representation using the Ego4D human video dataset using a combination of time-contrastive learning, video-language alignment, and an L1 penalty to encourage sparse and compact representations. The resulting representation, R3M, can be used as a frozen perception module for downstream policy learning. Across a suite of 12 simulated robot manipulation tasks, we find that R3M improves task success by over 20% compared to training from scratch and by over 10% compared to state-of-the-art visual representations like CLIP and MoCo. Furthermore, R3M enables a Franka Emika Panda arm to learn a range of manipulation tasks in a real, cluttered apartment given just 20 demonstrations. Code and pre-trained models are available at https://tinyurl.com/robotr3m.
研究の動機と目的
- 環境やタスクを跨いで一般化する、ロボティクス向けの普遍的で再利用可能なビジョンモデルの必要性を動機づける。
- Manipulationのための単一の視覚エンコーダを事前学習するため、多様な人間ビデオデータを活用する。
- 限られたデータで下流のポリシー学習をサポートする、コンパクトで相互作用を意識した表現を作成する。
提案手法
- Ego4D上で凍結した画像エンコーダF_phiを3つの損失で訓練する:時間対比学習で時間的ダイナミクスを捉え、動画と言語の整合性をエンコードして意味的関連性を捉え、L1/L2ペナルティでスパーシティを促進する。
- 凍結表現z_t = F_phi(I_t)を固有受容情報データと結合して、下流のビヘイビアクラーニング設定で簡易なポリシーを訓練する。
- 複数のシミュレーション環境と実世界のタスクで、CLIP、教師ありImageNet特徴、MoCo-ImageNetなどのベースラインとR3Mを比較する。
- 再利用を促進するため、ResNet18/34/50バックボーンの事前学習モデルとコードを提供する。
実験結果
リサーチクエスチョン
- RQ1多様な人間ビデオで学習した視覚表現は、見たことのないタスク/環境でのデータ効率の良い模倣学習を可能にするか?
- RQ2R3M目的関数の成分(時間的ダイナミクス、言語基盤、スパーシティ)は、下流性能に最も寄与するのはどれか?
- RQ3R3M表現は、混雑環境でのシミュレーションから実世界のロボット操作へ効果的に転移するか?
主な発見
| 環境 | 教師あり | 自己教師あり | R3M | R3M(-Aug) | R3M(-L1) | R3M(-Lang) |
|---|---|---|---|---|---|---|
| Franka Kitchen | 53.1 (2.7) | 51.1 (2.7) | 46.7 (2.7) | 47.2 (2.9) | - | - |
| MetaWorld | 69.2 (2.0) | 68.9 (2.1) | 65.0 (2.4) | 67.0 (2.0) | - | - |
| Adroit | 65.0 (1.7) | 61.3 (2.1) | 66.5 (1.6) | 45.6 (3.3) | - | - |
| All Domains | 62.4 (1.3) | 60.4 (1.4) | 59.4 (1.5) | 53.2 (1.5) | - | - |
- R3Mは、12タスク全体でゼロからの学習と比べ、下流タスクの成功率を20%以上向上させる。
- R3Mは、タスクと設定を問わず、平均してCLIPおよびMoCoベースラインを10%以上上回る。
- 実機ロボット実験では、約20件のデモンストレーションだけで学習を可能にし、レタスをパンに入れる、タオルを畳むなどのタスクで顕著な成功を達成した。
- アブレーションでは、動画と言語の整合性を除去すると性能が著しく低下し、スパーシティ規正は複数の環境で有効で、クロップ拡張が控えめな増分を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。