Skip to main content
QUICK REVIEW

[论文解读] Real-World Robot Learning with Masked Visual Pre-training

Ilija Radosavovic, Tete Xiao|arXiv (Cornell University)|Oct 6, 2022
Multimodal Machine Learning Applications被引用 27
一句话总结

这篇论文表明在大规模野外数据上使用掩码图像建模(MAE)的自监督视觉预训练能够得到冻结编码器策略,优于 CLIP、ImageNet 预训练和从零开始训练,在真实世界的机器人任务上,具有强劲的扩展效应。

ABSTRACT

In this work, we explore self-supervised visual pre-training on images from diverse, in-the-wild videos for real-world robotic tasks. Like prior work, our visual representations are pre-trained via a masked autoencoder (MAE), frozen, and then passed into a learnable control module. Unlike prior work, we show that the pre-trained representations are effective across a range of real-world robotic tasks and embodiments. We find that our encoder consistently outperforms CLIP (up to 75%), supervised ImageNet pre-training (up to 81%), and training from scratch (up to 81%). Finally, we train a 307M parameter vision transformer on a massive collection of 4.5M images from the Internet and egocentric videos, and demonstrate clearly the benefits of scaling visual pre-training for robot learning.

研究动机与目标

  • 使用多样且在野外的数据来学习可迁移的视觉表征,以用于真实世界的机器人。
  • 证明使用大型 ViT 编码器的掩码视觉预训练可以改进下游的机器人操作任务。
  • 展示同时扩大模型和数据规模能够提升真实世界机器人学习性能。

提出的方法

  • 构建一个大规模、多样化的图像数据集(来自 Ego4D、ImageNet、Epic Kitchens、Something-Something 等的 4.5M 帧)。
  • 使用高掩码比和编码器-解码器设计,通过掩码图像建模(MAE)对视觉编码器进行预训练。
  • 冻结 MAE 主干编码器,并通过行为克隆在其上学习控制策略,针对每个任务使用 20–80 条演示。
  • 使用 ViT 主体(Backbones)高达 307M 参数,以研究模型和数据规模的影响。
  • 训练将冻结的图像特征与本体感知状态结合起来以预测关节角度的增量(delta joint angles)。
  • 在 7 自由度手臂的 981 次真实世界实验中评估,使用手腕摄像头且不使用深度信息。

实验结果

研究问题

  • RQ1基于 MAE 的自监督预训练在多样的真实世界数据上,是否会产生可迁移到跨不同执行体的真实世界机器人任务的表征?
  • RQ2当编码器被冻结时,模型尺寸和数据规模如何影响真实世界的机器人学习?
  • RQ3所提出的方法与 CLIP、监督的 ImageNet 预训练及从零开始训练在真实机器人任务上的对比如何?
  • RQ4传感器设置(摄像头视角)和输入模态对转移性能的影响?
  • RQ5对下游任务的样本效率含义(演示数量)?

主要发现

  • 来自 MAE 预训练的编码器表征在下游任务中相比 CLIP、监督的 ImageNet 和从零基线,提升幅度高达 75–81%。
  • 同時扩大模型大小(ViT-S 到 ViT-Large)和数据量(HoI 与 Ego4D+ImageNet+HoI)可带来可衡量的增益,在更难的任务上收益更大。
  • 使用冻结的 MAE 编码器可实现更好的样本效率,大约需要比基线少一半的演示即可达到强性能。
  • 一个参数量为 307M 的 ViT 编码器在 4.5M 图像上训练,取得最佳真实世界结果,凸显数据规模对机器人学的好处。
  • 与并行的 R3M 模型在视频-语言数据上的训练相比,仅使用图像的自监督方法明显优于(例如,在 PickFruit 的 ViT-B 为 68.8% 对 31.3%)。
  • 相机选择很重要:腕上第一人称视角在精细定位方面优于第三人称视角。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。