[论文解读] Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos
VPT 通过用一个在有限带标签数据上训练的小型逆动力学模型对未标记的在线视频进行标注,训练出用于序列决策的一般行为先验,使在 Minecraft 中仅使用网络规模的未标记视频数据实现零-shot 和微调后的性能。它表明,这种预训练加微调(行为克隆或强化学习)在使用本地人类界面进行钻石工具制作等复杂任务时,可以达到甚至超过人类水平的表现。
Pretraining on noisy, internet-scale datasets has been heavily studied as a technique for training models with broad, general capabilities for text, images, and other modalities. However, for many sequential decision domains such as robotics, video games, and computer use, publicly available data does not contain the labels required to train behavioral priors in the same way. We extend the internet-scale pretraining paradigm to sequential decision domains through semi-supervised imitation learning wherein agents learn to act by watching online unlabeled videos. Specifically, we show that with a small amount of labeled data we can train an inverse dynamics model accurate enough to label a huge unlabeled source of online data -- here, online videos of people playing Minecraft -- from which we can then train a general behavioral prior. Despite using the native human interface (mouse and keyboard at 20Hz), we show that this behavioral prior has nontrivial zero-shot capabilities and that it can be fine-tuned, with both imitation learning and reinforcement learning, to hard-exploration tasks that are impossible to learn from scratch via reinforcement learning. For many tasks our models exhibit human-level performance, and we are the first to report computer agents that can craft diamond tools, which can take proficient humans upwards of 20 minutes (24,000 environment actions) of gameplay to accomplish.
研究动机与目标
- 通过使用未标记视频数据,将互联网规模的预训练扩展到序列决策领域。
- 证明用于训练逆动力学模型的少量带标签数据能够对大量未标记视频数据进行行为克隆的标注,从而实现规模化。
- 展示得到的基础模型在零-shot 上具备非平凡能力,并且可以通过模仿学习或强化学习微调整以解决具有挑战性的探索任务。
提出的方法
- 在一小组带标签的承包商数据集上训练逆动力学模型(IDM),以从观测轨迹预测动作。
- 筛选在线视频,创建一个干净的生存模式 Minecraft 数据集,约 70k 小时用于未标记数据。
- 通过 IDM 为未标记数据生成伪标签,并用这些标签训练一个基础行为克隆模型。
- 用行为克隆或强化学习对基础模型进行微调,以达到更高级的技能。
- 比较零-shot 性能和跨数据集、规模的微调收益,并分析 IDM 标注数据效率与直接 BC 训练的对比。
实验结果
研究问题
- RQ1是否可以利用未标记的在线视频通过半监督模仿学习来学习序列决策领域的一般行为先验?
- RQ2在扩展到网络规模的未标记视频数据时,逆动力学标注相比直接行为克隆的数据效率如何?
- RQ3在未标记视频上训练的 VPT 基础模型在 Minecraft 上能达到多大程度的零-shot 能力,以及通过 BC 或 RL 微调后有多大提升?
- RQ4使用 VPT 基础模型在本地人类界面进行 RL 微调后,哪些任务(如制作钻石工具)变得可实现?
主要发现
- 仅用 1962 小时带标签数据训练的 IDM,在一个保留集承包商数据上实现了 90.6% 的按键准确率和 0.97 的鼠标移动 R^2。
- 约 70k 小时的 web_clean 未标记数据经 IDM 标注后,能够训练出一个基础 BC 模型,显示出非平凡的零-shot 行为,并且可以进一步用 BC 或 RL 进行微调。
- 针对目标早期游戏数据集的 BC 微调在制作和工具制造方面带来显著提升,当使用 contractor_house 数据时获得更大收益。
- 从 VPT 基础模型进行的 RL 微调能够完成较困难的序列任务,包括获取钻石镐,具有不容忽视的成功率。
- 三阶段训练(预训练、BC 微调、RL 微调)在铁工具和钻石工具上实现高度可靠性,在某些任务上接近人类水平表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。