[论文解读] Video Prediction Models as Rewards for Reinforcement Learning
VIPER 使用来自预训练视频预测模型的对数似然作为强化学习的奖励信号,使从像素到专家级控制在多个基准测试中成为可能,并实现跨执行体的泛化,无需任务奖励。
Specifying reward signals that allow agents to learn complex behaviors is a long-standing challenge in reinforcement learning. A promising approach is to extract preferences for behaviors from unlabeled videos, which are widely available on the internet. We present Video Prediction Rewards (VIPER), an algorithm that leverages pretrained video prediction models as action-free reward signals for reinforcement learning. Specifically, we first train an autoregressive transformer on expert videos and then use the video prediction likelihoods as reward signals for a reinforcement learning agent. VIPER enables expert-level control without programmatic task rewards across a wide range of DMC, Atari, and RLBench tasks. Moreover, generalization of the video prediction model allows us to derive rewards for an out-of-distribution environment where no expert data is available, enabling cross-embodiment generalization for tabletop manipulation. We see our work as starting point for scalable reward specification from unlabeled videos that will benefit from the rapid advances in generative modeling. Source code and datasets are available on the project website: https://escontrela.me/viper
研究动机与目标
- 为强化学习提供可扩展的奖励设定,避免手工奖励设计。
- 利用未标注的专家视频,通过视频模型的似然来定义奖励信号。
- 证明基于视频模型的奖励能够在多样化基准上实现专家级别的控制。
提出的方法
- 使用 VQ-GAN 编码器/解码器和对离散码的 transformer,在专家视频上训练自回归视频预测模型(方程式3)。
- 将奖励定义为在给定过去帧的情况下下一帧的对数似然(方程4,按方程7中的上下文长度 k 近似)。
- 通过 KL 散度将智能体的轨迹分布与视频模型分布对齐来提升学习,并加入探索项(方程6)。
- 引入熵项,在高概率区域鼓励多样化轨迹(方程6)。
- 将 VIPER 奖励与任意强化学习算法结合使用(如 DrQ、DreamerV3),并在各任务中与 AMP 基线进行比较。
- 通过数据增强和上下文长度的实验来提升鲁棒性。

实验结果
研究问题
- RQ1VIPER 是否能够在没有真实奖励的情况下,为像素级多样化控制任务提供足够的学习信号?
- RQ2在多任务上训练的视频模型是否能为新任务或分布外场景提供有用的奖励?
- RQ3VIPER 是否能推广到没有专家数据的新环境或执行体?
- RQ4哪些实现选择(视频模型、上下文长度、探索权重)对性能影响最大?
主要发现
- 仅使用视频预测奖励,VIPER 在 15 个 DMC 任务、7 个 Atari 游戏和 6 个 RLBench 任务上达到接近专家水平的表现。
- VIPER 优于对抗性基线(AMP),并在桌面操作方面展现出强大的跨执行体泛化能力。
- 视频模型似然奖励与真实奖励相关,并能够用标准算法实现有效的强化学习。
- 更长的上下文和合适的探索权重提升性能;MaskGIT 在基于 VideoGPT 的似然上表现不及。
- 该方法可推广到训练中未看到的分布外执行体/任务,实现跨领域的奖励设定。
- 在 Atari 中对分数板进行掩蔽通过减少奖励信号中的噪声来提高策略稳定性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。