[论文解读] VIP: Towards Universal Visual Reward and Representation via Value-Implicit Pre-Training
VIP 在多样化的人类视频上进行预训练,以学习通用的视觉表示和针对未见机器人任务的密集奖励函数,从而实现基于奖励的有效控制和少量样本离线强化学习,无需特定任务数据。
Reward and representation learning are two long-standing challenges for learning an expanding set of robot manipulation skills from sensory observations. Given the inherent cost and scarcity of in-domain, task-specific robot data, learning from large, diverse, offline human videos has emerged as a promising path towards acquiring a generally useful visual representation for control; however, how these human videos can be used for general-purpose reward learning remains an open question. We introduce $ extbf{V}$alue-$ extbf{I}$mplicit $ extbf{P}$re-training (VIP), a self-supervised pre-trained visual representation capable of generating dense and smooth reward functions for unseen robotic tasks. VIP casts representation learning from human videos as an offline goal-conditioned reinforcement learning problem and derives a self-supervised dual goal-conditioned value-function objective that does not depend on actions, enabling pre-training on unlabeled human videos. Theoretically, VIP can be understood as a novel implicit time contrastive objective that generates a temporally smooth embedding, enabling the value function to be implicitly defined via the embedding distance, which can then be used to construct the reward for any goal-image specified downstream task. Trained on large-scale Ego4D human videos and without any fine-tuning on in-domain, task-specific data, VIP's frozen representation can provide dense visual reward for an extensive set of simulated and $ extbf{real-robot}$ tasks, enabling diverse reward-based visual control methods and significantly outperforming all prior pre-trained representations. Notably, VIP can enable simple, $ extbf{few-shot}$ offline RL on a suite of real-world robot tasks with as few as 20 trajectories.
研究动机与目标
- 激发对多样化机器人操作任务中可泛化感知与奖励学习需求的认识。
- 提出一个自监督的预训练目标,使得在未见任务上同时获得视觉表征与密集奖励。
- 证明离线人类视频数据可以通过对偶强化学习形式产生平滑、以目标为导向的奖励函数。
- 展示 VIP 能在真实机器人上实现少样本离线RL,并提升在模拟与真实任务上的性能。
提出的方法
- 将来自域外的人类视频中的表示学习表述为一个离线的以目标为条件的强化学习问题。
- 推导一个不需要机器人动作的自监督对偶目标(Fenchel 对偶性)基于价值函数。
- 将对偶目标解读为隐式时间对比学习目标,产生时间上平滑的嵌入。
- 通过使用一个简单、可实现的目标(嵌入距离作为奖励)以及带有子轨迹采样的实际训练循环来实现 VIP。
- 使用 Ego4D 数据训练 ResNet50 主干,得到一个冻结的表示,作为下游任务的奖励与感知骨干。
- 提供训练目标的最小 PyTorch 实现(几行代码),以促进可复现性。
实验结果
研究问题
- RQ1是否可以仅从域外的人类视频中学习出一个通用的视觉奖励函数?
- RQ2离线、无动作的人类视频数据如何产生有用的以目标为条件的价值函数用于机器人任务?
- RQ3从 VIP 得到的嵌入空间是否提供密集、平滑的奖励,从而实现有效的下游视觉-运动控制?
- RQ4在最少的任务特定数据下,VIP 在真实机器人上实现少样本离线 RL 的程度如何?
主要发现
- 在 Ego4D 人类视频上训练的 VIP 为未见的机器人任务提供密集的视觉奖励,在基于奖励的设置中优于先前的表示。
- VIP 通过 MPPI 轨迹优化在困难任务上实现了非平凡的进展,在更强的算力预算下达到大约 44% 的总成功率。
- 在在线强化学习中,基于 VIP 的表示比基线显著提高总成功率。
- VIP 使真实世界的少样本离线 RL 仅需约 20 条轨迹,就超越同域 VIP 变体及若干基线。
- 定性分析表明 VIP 嵌入在时间上平滑,且与基线相比奖励景观起伏较少,在某些视图中与密集的状态奖励相关(与真值的 R2 高达 0.95)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。