[论文解读] CURL: Contrastive Unsupervised Representations for Reinforcement Learning
CURL 将对比自监督表示学习与离策略强化学习相结合,以提高像素输入的数据效率,相较于以往的像素为基础的方法,在 DMControl 和 Atari 基准测试上取得了显著提升。
We present CURL: Contrastive Unsupervised Representations for Reinforcement Learning. CURL extracts high-level features from raw pixels using contrastive learning and performs off-policy control on top of the extracted features. CURL outperforms prior pixel-based methods, both model-based and model-free, on complex tasks in the DeepMind Control Suite and Atari Games showing 1.9x and 1.2x performance gains at the 100K environment and interaction steps benchmarks respectively. On the DeepMind Control Suite, CURL is the first image-based algorithm to nearly match the sample-efficiency of methods that use state-based features. Our code is open-sourced and available at https://github.com/MishaLaskin/curl.
研究动机与目标
- 在强化学习中需要从高维像素输入实现数据高效学习。
- 提出一个简单、可插拔的对比学习框架,在不进行大规模架构改动的情况下,与RL共同学习表示。
- 展示在 DMControl 和 Atari 任务上相对于先前像素基方法的数据效率和性能提升。
- 显示对比学习目标在像素输入的控制中可达到与基于状态的方法在样本效率上的相匹配。
提出的方法
- 使用带增强帧栈的实例判别,通过对比损失(InfoNCE)学习表示。
- 采用动量平均的目标编码器(MoCo 风格),使用双线性相似度(q^T W k)作为对比分数。
- 在查询编码器之上训练 RL 策略/值函数,同时目标编码器提供无梯度流的键。
- 对帧栈应用简单的数据增强(随机裁剪),以生成查询-键对,同时保持时序结构。
- 将 CURL 与现有的 RL 算法(DMControl 使用 SAC;Atari 使用数据高效 Rainbow)结合,几乎无需额外超参数。
- 证明对比学习作为一个辅助任务,提高样本效率,而不需要世界模型或重构损失。
实验结果
研究问题
- RQ1一个简单的对比自监督目标能否改善像素基 RL 任务的数据效率?
- RQ2CURL 能否在 DMControl 和 Atari 上达到与最先进像素基方法相媲美甚至更优越的样本效率和性能?
- RQ3能否在不进行大规模架构改动的前提下,将对比学习与离策略 RL 以简单、可复现的流程整合?
- RQ4动量编码的键和双线性相似度如何影响表示质量和后续控制性能?
主要发现
- CURL 在 DMControl 的 100k 步时以中位数高出前一代方法 1.9 倍。
- CURL 在 Atari 的 100k 步时中位数性能比前一方法高出 1.2 倍。
- 在 DMControl 上,CURL 是首个在多环境中几乎达到状态基 SAC 样本效率的图像基础方法。
- 在所有像素基任务中,CURL 相对于基于模型和无模型的基线均显示出显著的数据效率提升。
- 作者强调 CURL 的简单性和可重复性,避免复杂的架构改动或大量额外超参数。
- CURL 在 16 个 DMControl 任务和 26 个 Atari 游戏的像素输入上显示出强劲的经验结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。