[论文解读] R3M: A Universal Visual Representation for Robot Manipulation
R3M 通过从多样化的人类视频(Ego4D)中预训练可重复使用的视觉表示,使用时序对比学习、视频-语言对齐和稀疏性,以在仿真与真实任务中实现数据高效的下游机器人操作。它在12个任务中优于 CLIP、ImageNet 和 MoCo 基线,并实现仅需 20 次示例即可进行真实世界学习。
We study how visual representations pre-trained on diverse human video data can enable data-efficient learning of downstream robotic manipulation tasks. Concretely, we pre-train a visual representation using the Ego4D human video dataset using a combination of time-contrastive learning, video-language alignment, and an L1 penalty to encourage sparse and compact representations. The resulting representation, R3M, can be used as a frozen perception module for downstream policy learning. Across a suite of 12 simulated robot manipulation tasks, we find that R3M improves task success by over 20% compared to training from scratch and by over 10% compared to state-of-the-art visual representations like CLIP and MoCo. Furthermore, R3M enables a Franka Emika Panda arm to learn a range of manipulation tasks in a real, cluttered apartment given just 20 demonstrations. Code and pre-trained models are available at https://tinyurl.com/robotr3m.
研究动机与目标
- 强调需要一个通用、可重用的机器人视觉模型,能够在不同环境和任务中泛化。
- 利用多样化的人类视频数据来预训练一个用于操作的单一视觉编码器。
- 创建一个紧凑的、具备交互感知的表示,能够在数据有限的情况下支持下游策略学习。
提出的方法
- 在 Ego4D 上训练一个冻结的图像编码器 F_phi,使用三种损失:时序对比学习以捕捉时间动态、视频-语言对齐以编码语义相关性,以及 L1/L2 正则以促进稀疏性。
- 使用下游行为克隆设置,其中冻结的表示 z_t = F_phi(I_t) 与本体感知数据串联,以训练一个简单的策略。
- 在多个仿真环境和真实世界任务中,将 R3M 与 CLIP、监督的 ImageNet 特征和 MoCo-ImageNet 等基线进行比较。
- 提供 ResNet18/34/50 主干网络的预训练模型和代码,以促进复用。
实验结果
研究问题
- RQ1在未见的任务/环境中,基于多样化人类视频训练的视觉表示能否实现机器人操作的高效模仿学习?
- RQ2R3M 目标中的哪些组成部分(时间动态、语言对齐、稀疏性)对下游性能贡献最大?
- RQ3R3M 表征在拥挤环境中从仿真到真实世界机器人操作的迁移效果如何?
主要发现
| 环境 | 有监督 | 自监督 | R3M | R3M(-Aug) | R3M(-L1) | R3M(-Lang) |
|---|---|---|---|---|---|---|
| Franka Kitchen | 53.1 (2.7) | 51.1 (2.7) | 46.7 (2.7) | 47.2 (2.9) | - | - |
| MetaWorld | 69.2 (2.0) | 68.9 (2.1) | 65.0 (2.4) | 67.0 (2.0) | - | - |
| Adroit | 65.0 (1.7) | 61.3 (2.1) | 66.5 (1.6) | 45.6 (3.3) | - | - |
| All Domains | 62.4 (1.3) | 60.4 (1.4) | 59.4 (1.5) | 53.2 (1.5) | - | - |
- R3M 在12个任务中相较从零开始训练,下游任务成功率提升超过20%。
- R3M 在所有任务和设置上平均领先 CLIP 与 MoCo 基线超过10%。
- 在真实机器人实验中,R3M 仅需约20次示例就能实现学习,在将生菜放入平底锅、折叠毛巾等任务上取得显著成功。
- 消融研究表明移除视频-语言对齐会严重降低性能,稀疏正则在多环境中有帮助,裁剪增强带来适度提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。