[论文解读] Pretraining Representations for Data-Efficient Reinforcement Learning
SGI(自监督预训练与 SPR、目标条件 RL,以及逆向动力学)通过从未标注数据离线学习丰富表示,并用少量任务数据微调,实现数据高效的强化学习,尤其在较大模型和更高质量的预训练数据下,在 Atari-100k 上表现出色。
Data efficiency is a key challenge for deep reinforcement learning. We address this problem by using unlabeled data to pretrain an encoder which is then finetuned on a small amount of task-specific data. To encourage learning representations which capture diverse aspects of the underlying MDP, we employ a combination of latent dynamics modelling and unsupervised goal-conditioned RL. When limited to 100k steps of interaction on Atari games (equivalent to two hours of human experience), our approach significantly surpasses prior work combining offline representation pretraining with task-specific finetuning, and compares favourably with other pretraining methods that require orders of magnitude more data. Our approach shows particular promise when combined with larger models as well as more diverse, task-aligned observational data -- approaching human-level performance and data-efficiency on Atari in our best setting. We provide code associated with this work at https://github.com/mila-iqia/SGI.
研究动机与目标
- 通过利用未标注/离线数据来学习表示,推动深度强化学习的数据效率提升。
- 提出一个多目标预训练方案,捕捉环境的多样性方面。
- 评估在 Atari-100k 上离线 SGI 预训练如何随数据质量和模型大小而扩展。
提出的方法
- 用三个自监督目标预训练共享编码器:潜在动力学(在潜在空间中的前向预测)、无监督的目标条件强化学习,以及逆向动力学建模。
- 使用两阶段流程:离线预训练,使用共享编码器;随后在微调中结合任务特定的强化学习损失,同时冻结或以更小的学习率调整编码器。
- 组合目标,使它们在潜在空间中运作并共享参数,SPR 的稳定性通过指数移动平均目标网络实现。
- 采用 Rainbow 风格的 Q 学习用于下游任务,并加入增强的 SPR 损失以促进鲁棒表示。
- 在 Atari-100k(100k 环境步)下评估,使用不同的预训练数据质量(随机、探索、弱、混合以及离线 DQN 数据)。
实验结果
研究问题
- RQ1离线 SGI 预训练是否相比先前的预训练基线在 Atari-100k 上提高数据效率?
- RQ2数据质量和模型大小如何影响 SGI 的微调性能?
- RQ3将多种自监督目标结合起来是否比单一目标更有益?
- RQ4微调应如何进行以保持预训练的表示(如学习率调度、冻结等)?
主要发现
| 方法 | 中位数 | 均值 | $>$ H | $>$ 0 | 数据 |
|---|---|---|---|---|---|
| SimPLe | 0.144 | 0.443 | 2 | 26 | 0 |
| DER | 0.161 | 0.285 | 2 | 26 | 0 |
| DrQ | 0.268 | 0.357 | 2 | 24 | 0 |
| SPR | 0.415 | 0.704 | 7 | 26 | 0 |
| SGI-None | 0.343 | 0.565 | 3 | 26 | 0 |
| SGI-R | 0.326 | 0.888 | 5 | 26 | 6M |
| SGI-E | 0.456 | 0.838 | 6 | 26 | 6M |
| SGI-W | 0.589 | 1.144 | 8 | 26 | 5M |
| SGI-M | 0.679 | 1.149 | 9 | 26 | 3M |
| SGI-M/L | 0.753 | 1.598 | 9 | 26 | 6M |
- SGI 在 Atari-100k 上实现强数据效率,SGI-M/L 达到中位 HNS 0.753,接近人类水平。
- SGI-M(3M 数据)在相同数据上优于 ATC-M;SGI-E 与其他探索性预训练基线相当或超过,且预训练数据显著更少。
- 性能随数据质量和模型大小而提升:编码器在预训练后越大越有利,且更高质量的离线数据会带来更高的微调性能。
- 将三种自监督目标全部结合可获得最佳性能,逆向动力学建模有助于避免表征崩溃。
- 对预训练表示进行朴素微调会降低性能;降低微调学习率并偶尔冻结编码器可获得更优结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。